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Editorial 


PC Games Hardware Wissen 


So funktioniert 
Ihr Computer 


Willkommen zur vierten Ausgabe unseres Wissens-Kom- 
pendiums „So funktioniert Ihr Computer“! 


Seit Erscheinen des vergangenen „Bookazines“ 2017 hat 
sich wieder eine Menge getan: AMD konnte mit Ryzen ein 
grandioses Comeback feiern, Deep-Learning-Algorith- 
men machen nun auch nicht mehr vor Spielen halt und 
die einst größte Computermesse der Welt, die CeBIT in 
Hannover, wurde sang- und klanglos eingestellt. 


Um den Entwicklungen Rechnung zu tragen, haben wir 
in der 2019er-Edition unser Augenmerk verstärkt auf die 
Bereiche Grafikkarten und Prozessoren gelenkt; beide 
sind deutlich gewachsen und in weiten Teilen erstmals in 
dieser Reihe zu lesen. Neu ist ebenfalls der Software-Teil, 
in dem wir maschinelles Lernen und Kryptowährungen 
erklären - beides die Trendthemen der vergangenen bei- 
den Jahre schlechthin. 


Ich wünsche Ihnen viel Spaß beim Lesen und hoffe, Sie 
auch beim nächsten großen Update in zwei Jahren wie- 
derzusehen, herzlichst Ihr 


Christian Gögelein 
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Bild: Intel 


Prozessor 


So funktioniert 
ein Prozessor 


ieren (wie hier im Bild bei einem Prototyp), die Kerne selbst enthalten aber 
nur einen Bruchteil der Funktionen vergleichbarer aktueller CPUs. 
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rozessoren werden Jahr für 
DR immer komplexer und 
leistungsfähiger - aus den einfa- 
chen Schaltkreisen, die zu Beginn 
der PC-Ära Standard waren, sind 
inzwischen High-tech-Chips ge- 
worden, die hunderte Millionen 
Transistoren enthalten. Wie aus den 
Schaltern eine komplexe Rechen- 
maschine wird, zeigt dieses Kapitel; 
zunächst jedoch ein kurzer Über- 


blick der Funktionsgruppen. 


Prozessoraufbau 

Ein aktueller Prozessor besteht aus 
mehreren Baugruppen, die unter- 
schiedlich viel Platz einnehmen. 
Die eigentlichen Rechenwerke be- 
legen oft nur einen Bruchteil der 
Chipfläche. Der restliche Platz wird 
für verschiedene Funktionen benö- 
tigt, ein großer Teil des Transistor- 
budgets geht dabei für Cache-Spei- 
cher drauf. Grundsätzlich verfügen 


Prozessoren über: 


I Mindestens einen CPU-Kern mit 
den Recheneinheiten 

I Zwischenspeicher (L1, L2, L3, L4) 

I Ein- und Ausgabeeinheiten 

I mindestens einen Speichercont- 
roller (inkl. diverser Northbridge- 
Funktionen) 


I Gegebenenfalls einen Grafikkern 


CPU intern 

Die Recheneinheiten eines Prozes- 
sors sind relativ einfach gestrickt 
und funktionieren grundsätzlich 
immer noch so wie zu den Anfangs- 
zeiten der Computergeschichte. 
Durch bestimmte Verschaltungs- 
muster können elementare Ope- 
rationen wie eine Addition durch- 


geführt werden. Durch Kopplung 


mehrerer dieser Einheiten lassen 
sich auch Multiplikationen, Divisi- 
onen und viele weitere arithmeti- 


sche Operationen umsetzen. 


Befehlsverarbeitung 

Das Prinzip der Befehlsverarbei- 
tung hat sich ebenfalls nicht geän- 
dert: Ein Befehl wird zunächst vom 
Prozessor geholt, dann dekodiert 
und ausgeführt. Schließlich wird 
das Ergebnis zurückgeschrieben. 
Gleichwohl hat sich die Geschwin- 
digkeit der Abarbeitung in den ver- 
gangenen Jahrzehnten natürlich 
drastisch erhöht. 


Doch was ist eigentlich ein „Befehl“? 
Mit dem ersten x86-Prozessor führ- 
te Intel den gleichnamigen x86-Be- 
fehlssatz ein. Darin waren (und 
sind bis heute) 80 Instruktionen 
enthalten, die hauptsächlich für die 
Berechnung von mathematischen 
Aufgaben, aber auch für die Mani- 
pulation von Zeichenketten oder 
Sprüngen im Code verwendet wer- 
den. Einfache Instruktionen heißen 
zum Beispiel ADD (Addition), MOV 
(Move, zum Bewegen von Daten in 
Speicher bzw. Register) oder CMP 


(Compare, vergleicht Operanden). 


Arbeitsschritte 

Befehle lagen früher in Form von 
Lochkarten vor, sind heute aber in 
der Regel im Arbeitsspeicher oder 
auf Festspeichern wie einer Fest- 
platte vorhanden. Weil aber selbst 
der Arbeitsspeicher noch bis zu 
1.000-mal langsamer ist, als die CPU 
intern rechnen kann, setzen die 
Entwickler auf chipinterne Zwi- 
schenspeicher, die häufig benötig- 
te Daten „cachen“. Damit wird das 
zeitraubende Laden von Daten aus 
dem Arbeitsspeicher häufig vermie- 


den. 


Die Befehlsdekodierung läuft je 
nach Prozessor unterschiedlich ab. 
Grundsätzlich wird dabei ermittelt, 


welche Operation durchgeführt 


werden soll (Addition, Division, 
Sprung etc.). Zusätzlich werden 
die Speicheradressen festgelegt, 
in denen sich die zu verarbeiten- 
den Daten befinden. Intel und 
AMD zerlegen die standardisierten 
x86-Operationen dabei zusätzlich 
in kleinere, maschinengerechtere 


Befehlsgruppen. 


Micro- und 

Makro-Ops 

Intel nennt diese Gruppen Mikro-In- 
struktionen („Micro-Ops‘), bei AMD 
hießen sie lange Zeit Makro-Instruk- 
tionen („Makro-Ops‘); erst in der 
jüngeren Vergangenheit schwenk- 
te auch AMD auf die Bezeichnung 


Micro-Ops um. 


Seit Einführung dieser schlanken 
Instruktionen (mit dem Pentium 
Pro) gelten nun auch x86-CPUs als 
RISC-Prozessoren. RISC-CPUs ver- 
fügen über einen reduzierten Be- 
fehlssatz („Reduced Instruction Set 
Computer“), sind dabei aber deut- 
lich schneller als solche mit einem 
komplexen Befehlssatz („Complex 


Instruction Set Computer“, „CISC“) 


Sind alle Daten vorhanden, wird der 
Befehl ausgeführt. Die Operanden 
werden von einer Ausführungsein- 
heit (Arithmetic Logic Unit, kurz: 
ALU) verarbeitet; aus zwei Operan- 
den wird so zum Beispiel die Sum- 
me gebildet. Schließlich wird das 
Ergebnis in den (Cache-)Speicher 
zurückgeschrieben. Der Befehls- 
zähler („Program Counter“) wird 
erhöht und die Befehlsverarbeitung 
wird mit der nächsten Operation 
fortgesetzt - so lange, bis das Pro- 


gramm beendet ist. 


Rechenwerke 

Die Rechenwerke eines Prozessors 
waren primär für Operationen mit 
Ganzzahlen ausgelegt. Viele Anwen- 
dungen, darunter besonders Spiele, 
haben aber einen hohen Anteil an 


Berechnungen mit Kommazahlen 


(Gleitkommaoperationen). Schon 
früh konstruierten die Chip-Inge- 
nieure daher spezielle Gleitkom- 
ma-Einheiten. Anfangs steckten die- 
se noch in eigenen Gehäusen und 
mussten über das Mainboard mit 
dem Prozessor verbunden werden. 
Seit der 486-Generation sind diese 


Teil des Hauptprozessors. 


Bald stieß auch die Gleitkomma- 
einheit an ihre Grenzen. Intel führ- 
te mit dem Pentium III deshalb 
erstmals eine SSE-Einheit ein. Diese 
Einheit ist deshalb besonders inter- 
essant, weil sie auf einen eigenen Re- 
gistersatz zurückgreift, der viermal 
breiter ist als bei einem 32-Bit-Pro- 
zessor. So wird es möglich, mit einer 
Instruktion mehrere Daten zu ver- 
arbeiten, was bei einigen Aufgaben 
deutliche Leistungsgewinne bringt. 
Soll zum Beispiel die Helligkeit ei- 
nes Bildes erhöht werden, kann eine 
Instruktion (eine Addition auf den 
Farbwert der RGB-Kanäle) auf ver- 
schiedene Daten (die Pixel des Bil- 
des) angewendet werden - mit na- 


hezu vierfacher Geschwindigkeit. 


Cache-Hierarchie 

Während seiner Arbeit muss der 
Prozessor ständig auf den Arbeits- 
speicher (RAM) zugreifen. Dieser 
ist zwar sehr preiswert, aber im Ver- 
gleich zum Prozessor sehr langsam. 
Eine ausgefeilte Cache-Hierarchie 
sorgt daher bei Prozessoren für 
eine deutlich reduzierte Anzahl von 
Speicheranfragen. Der schnellste 
und leistungsfähige Cache stellt Da- 
ten in der Regel innerhalb von drei 
bis vier Taktzyklen bereit. Er heißt 
Level-1(L1)-Cache und wird nur 
sparsam eingesetzt. Aktuelle Prozes- 
soren verfügen pro Kern über 64 
bis 128 Kilobyte L1-Cache, der in ei- 
nen Daten- und einen Befehlscache 


unterteilt ist. 


An zweiter Stelle steht der L2-Cache, 
der üblicherweise 256 bis 512 Kilo- 
byte groß ist. Er ist mit zirca 10 bis 


Prozessor 


Mit Intels 486 hielten Gleitkommaeinheiten Einzug in die Prozessor-Architek- 
tur. Dies verhalf auch (3D-)Spielen zum Durchbruch. 


Intels Pentium Pro brachte eine Reihe neuer Funktionen, unter anderem die 


Befehlszerlegung in Micro-Ops. 


Transistoren. Mit jeder neuen Generation kamen danach neue Funktionen 
und Techniken hinzu. 
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Bild: Intel 


Bild: Intel 


Bild: Intel 


Prozessor 


Prozessor- Irends: 
Was bringt die Zukunft? 


Die Prozessorentwicklung wird in mehrfacher Hinsicht gebremst. Ei- 
nerseits stoßen CPUs an ein Taktlimit, das bei annähernd 4 Gigahertz 
liegt. Knapp zehn Jahre lang konnte kein Prozessor die Schwelle von 
3,8 GHz „knacken“ und auch danach ging es nur zäh voran. Anderer- 
seits kann auch die Zahl der CPU-Kerne nicht beliebig gesteigert wer- 
den - jedenfalls nicht, wenn „normale“ CPU-Kerne verwendet werden. 


AMD und Intel wollen künftig auf abgespeckte Kerne setzen, welche 
die vollwertigen Kerne bei speziellen Rechenaufgaben unterstützen. 
Intel spricht konkret bereits von Kryptographie-Kernen. Integrierte Gra- 
fikkerne sind bereits Realität. 


Wie sich die maßgeblichen CPU-Parameter Transistorzahl, Taktfre- 
quenz und Stromverbrauch in den vergangenen Jahren entwickelt ha- 
ben, illustriert die folgende Grafik: 


Transistors 
(thousands) 


Single-Thread 
Performance 
(SpecINT x 10°) 


Frequency (MHz) 


Typical Power 


(Watts) 
Number of 
n g Eo v BT: Logical Cores 
oi D + $ + A ët ot engt ern € € 
L L L L 
1970 1980 1990 2000 2010 2020 


Grafik: Christopher Batten, mit Daten von M. Horowitz, F. Labonte, O. Shacham, K. Olukotun, L. 
Hammond; lizenziert unter CC-BY-4.0 (https://creativecommons.org/licenses/by/4.0/) 


Wi 
(CH 


es = SIS 


Weeer x s 
Die niedrigen Spannungen aktueller Prozessoren benötigen aufwendige 
Spannungswandler auf Mainboards. Aktuelle CPUs verwenden intern sogar 
mehrere Spannungen. 
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20 Taktzyklen langsamer als der L1- 
Cache. Schließlich steht ein gemein- 
samer Level-3-Cache für alle Kerne 
zur Verfügung. Er ist meist sechs 
bis acht Megabyte groß und mit 40 
bis 100 Taktzyklen deutlich langsa- 
mer. Im Gegensatz zum DRAM-Ar- 
beitsspeicher ist Cache-Speicher 
aus SRAM-Zellen zusammengesetzt. 
Diese bestehen aus vier bis sechs 
Transistoren und benötigen mehr 
Die-Fläche als DRAM; dafür können 
Informationen dauerhaft gespei- 
chert werden und müssen nicht in 
festen Intervallen sogenannte Re- 


fresh-Zyklen durchlaufen. 


Pipelining und 000 
Die immer größer werdenden 
Caches haben die Verarbeitung von 
Daten zwar stark beschleunigt. Sie 
können aber nicht verhindern, dass 
manche Daten immer noch aus dem 
Speicher oder - noch schlimmer - 
von der Festplatte geholt werden 
müssen. Um die Recheneinheiten 
besser auszulasten, verfügen alle 
modernen x86-Prozessoren seit 
dem Pentium über „Pipelines“; ge- 
meint ist damit, dass mehrere Be- 
fehle parallel abgearbeitet werden. 
Während ein Befehl ausgeführt 
wird, wird ein weiterer schon deko- 


diert und ein dritter geholt. 


Pipelining bringt vor allem dann 
Vorteile, wenn Befehle unabhängig 
voneinander ausgeführt werden 
können; dies ist jedoch nur selten 
der Fall. Viel häufiger kommt es vor, 
dass ein Befehl auf das Ergebnis einer 
anderen Operation warten muss. Um 
die „Wartezeit“ sinnvoll zu nutzen, 
haben AMD und Intel eine sogenann- 
te „Out-of-Order“(O0O)-Execution 
ersonnen. Damit lassen sich Befehle 
auch spekulativ ausführen, was im Er- 


folgsfall einige Taktzyklen spart. 


Kommunikationswege 
Ein Prozessor alleine könnte we- 
nig ausrichten. Mindestens ebenso 


wichtig ist die Anbindung an den 


Rest des Systems. Während der An- 
wender beispielsweise ein Spiel 
spielt, werden in einer zentralen 
Schleife permanent wichtige Parame- 
ter wie Maus- und Tastatureingaben 
abgefragt, Daten aus dem Speicher 
geholt, verarbeitet, an die Grafikkar- 
te gesendet oder zurückgeschrieben 
und viele weitere Aufgaben erledigt. 
Bis vor einigen Jahren wurde für den 
kompletten Datenverkehr von und 
zum Prozessor ein eigener Bus ver- 
wendet, der „Front Side Bus“. Diese 
Verbindung wurde jedoch immer 
mehr zum Flaschenhals und daher 
erst von AMD, später auch von In- 
tel durch eine schnellere Punkt-zu- 
Punkt-Verbindung ersetzt. Die Spei- 
chermodule werden zusätzlich von 
einem speziellen On-Die-Controller 
angesprochen, was die Wartezeit 


weiter verkürzt hat. 


Leistungsaufnahme 

Früher liefen Prozessoren noch mit 
der einheitlichen Y/O-Spannung des 
Mainboards (5 bzw. 3,3 Volt). Auf- 
grund der stetig steigenden Verlust- 
leistung sind die Hersteller jedoch 
bemüht, die CPU-Spannung weiter 
zu senken. Als Folge dieser Anstren- 
gungen laufen heutige Prozessoren 
mit Spannungen um ein Volt, die 
vom Mainboard eigens bereitgestellt 
werden müssen. Das hat zur Folge, 
dass die Mainboard-Hersteller Span- 
nungswandler integrieren müssen, 


die zusätzlich Wärme produzieren. 


Die Leistungsaufnahme der Pro- 
zessoren steigt ebenfalls mit je- 
dem neuen Transistor. Die Her- 
steller dies 


versuchen, (neben 


feineren Herstellungsprozessen) 
durch Energiesparfunktionen wie 
Cool’n’quiet oder EIST aufzufangen. 
Dennoch bleibt das grundsätzliche 
Problem bestehen: Bei jedem Tran- 
sistor-Schaltvorgang wird Energie 
„verbraucht“. Würden alle Transis- 
toren eines Prozessors zur gleichen 
Zeit schalten, würde der Chip au- 


genblicklich durchbrennen! 
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Prozessor 


Der \Veg der Daten durch den Prozessor 


Vorbereitung © 


Programme werden normalerweise 
linear abgearbeitet. Ein spezielles 
Register, der Program Counter (PC), 
hält die Adresse bereit, an welcher 
jener Befehl steht, der als Nächstes 
bearbeitet werden soll. Der PC wird 
nach jeder Instruktion erhöht, bis 
das Programm beendet ist. 


Am Anfang unseres Beispiels wird 
also der erste (x86-)Befehl geholt, 
er soll bereits im Speicher (RAM) 
liegen. Dazu wird die entsprechen- 
de Adresse an den Speicherkontrol- 
ler gesendet, wo die entsprechen- 
den Zeilen und Spalten adressiert 
werden müssen. Bis die Daten über 
den Bus geschickt werden und dort 
ankommen, vergehen dutzende bis 
mehrere hundert CPU-Taktzyklen. 
Muss das Programm von der Fest- 
platte geholt werden, vervielfacht 
sich die Wartezeit. 


Meist werden gleichzeitig die 
benachbarten Speicherzellen mit 
ausgelesen und in eine Cacheline 
des Prozessors gelegt. Bei der Be- 
arbeitung eines Programms liegen 
die Befehle normalerweise hinter- 
einander; die folgenden Befehle 
sind dann schon im (Instruktions-) 
Cache vorhanden und können 
wesentlich schneller bereitgestellt 
werden. 


Befehl analysieren 2 


Der x86-Befehl wird nun dekodiert und in kleinere Instruktionen zerlegt. Diese kleineren Instruktionen haben den Vorteil, 
dass sie alle einfach gehalten sind, die gleiche Länge haben und damit schnell ausgeführt werden können. Bei einigen 
Prozessoren werden die bereits dekodierten Befehle in einem speziellen Cache gespeichert. Beim Pentium 4 hieß dieser 
„Trace Cache“, Coffee Lake verfügt über einen ähnlich gestrickten „Micro-Op-Cache“, der mehrere tausende dekodierte 
Mikro-Instruktionen aufnehmen kann. Bei Intel-Architekturen wird zwischen einfachen und komplexen x86-Befehlen 
unterschieden; während für einfache Instruktionen drei Dekoder bereitstehen, gibt es für komplexe Anweisungen nur 
einen. Bei der Befehlsdekodierung wird außerdem festgelegt, ob und welche Befehle sich umsortieren lassen. Durch die 


„Out-of-Order-Execution“ können die Einheiten der CPU besser ausgelastet werden. 
Ausführung vorbereiten @ 


Der Befehl ist jetzt dekodiert und zerlegt - idealerweise können die Operanden gleich mit an die Ausführungseinheiten 
übergeben werden. Ein Befehl der Art „Addiere 20 zu 6“ könnte also sofort verarbeitet werden. In der Regel wird ein 
Compiler versuchen, die benötigten Daten im Voraus bereitzustellen. Wenn die Operanden aber von dem Ergebnis einer 
vorhergehenden Instruktion abhängig sind, klappt dies nicht. Bis die Daten eintreffen, verharrt der Befehl in diesem Fall 
in der „Reservation Station“. Je nachdem, welcher Befehl ausgeführt werden soll, nimmt die Operation nun unterschied- 


liche Wege (im Folgenden dargestellt als 4a, 4b und 4c). 


Befehl ausführen (al 


Anschließend werden die Ausführungseinheiten für die 
Befehlsausführung vorbereitet. Konkret heißt das, dass 
die Recheneinheiten (ALUs) für die entsprechende Ope- 
ration mit den zugehörigen Registern verschaltet werden. 
Je nach Architektur stehen unterschiedlich viele ALUs für 
diverse Aufgaben bereit. Üblich sind heute drei bis sechs 
ALUSs für Ganzzahl- und/oder Speicherzugriffe sowie drei 
weitere ALUs für Fließpunktoperationen (diese heißen 
dann FPUs). Häufig setzen Chipentwickler auch hybride 
Rechenwerke ein; so gibt es dann beispielsweise meh- 
rere Ausführungseinheiten für einfache Befehle, aber nur 
eine Einheit, die komplexe Befehle berechnen kann. Da 
komplexe Befehle selten gehäuft vorkommen, resultiert 
daraus unter dem Strich ein Performance-Plus. 


Integer-Operation 
Im Fall 4a soll eine Ganzzahl verarbeitet werden; eine 
einfache Addition kann bei vielen Prozessoren von sechs 


verschiedenen Ausführungseinheiten berechnet werden. 


Fließpunkt-/SSE-Operation 

Sollen bei dem Befehl Zahlen mit Nachkommastellen 
verarbeitet werden, wird dafür eine Fließpunkteinheit 
bemüht. In der Coffee-Lake-Architektur gibt es eigene 
Rechenwerke für Fließpunkt-Additionen, -Multiplikati- 
onen und -Divisionen. Für SSE-Befehle (bzw. MMX/3d- 
now) sind ebenfalls spezielle Ausführungseinheiten 
vorgesehen. 


Speicher-Operation 

Oft müssen Daten vom und zum Speicher bewegt wer- 
den (siehe Schritt 3); dafür bieten moderne Prozessoren 
eigene Einheiten an. Zum Laden und Speichern gibt es 
meist drei Einheiten (AGUs). 


128 Entry ITLB 


32 KB I-cache (8 way) + 


ł 


= 128 bits 


Instruction 


x86 Instruction Pre-Decoder, Fetch Buffer 
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Ergebnis schreiben 


Schließlich liegt das Resultat der Operation vor; es wird aber nicht direkt in den 
Cache geschrieben, sondern in die „Reservation Station“ geschickt. Dort steht 
das Ergebnis für nachfolgende Instruktionen zur Verfügung, was die Ausführungs- 
zeit verkürzt. Dies kommt ebenfalls bei OoO-Executions vor, um die „Wartezeiten“ 
sinnvoll zu nutzen. 


Andere Befehle sorgen dafür, dass weitere Operanden geladen werden, und 
wieder andere können den Program Counter direkt verstellen - was dann als 
„Sprung“ bezeichnet wird. Die Ergebnisse der Speicher-Einheiten (AGU) gehen 
in einen Puffer, den Memory Reorder Buffer (MOB). Dort können die Zugriffe 
umsortiert werden. Das ist sinnvoll, damit schnelle Lesezugriffe den langsamen 


Speicher aktualisieren 


Hat die Rechenoperation ein Ergebnis zur Folge, so wird 
dieses schließlich in den Cache und/oder den Speicher 
geschrieben. Bei einigen BIOS-Versionen kann man 

das sogar steuern. „Write Back“ bedeutet dabei, dass 
der Wert nur in den Cache geschrieben wird. Mit „Write 
Through“ werden Cache und Speicher gleichermaßen 
aktualisiert, was etwas mehr Zeit kostet. 


Generell sind Schreibzugriffe weniger performancekri- 
tisch als Lesezugriffe. Diverse Puffer und Algorithmen 
sorgen dafür, dass die aktualisierten Daten gebündelt 


Prozessor 


Schreibzugriffen vorgezogen werden können. | und am Stück in den Speicher geschrieben werden. 


| 
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Bild: Intel 


Prozessor 


Das Grundprinzip 
eines Prozessors 


Intels erster Mikroprozessor, der 4004 (hier im Bild), vereinte gerade mal 
2.300 elektrische Schalter. 


Die Komponenten eines 
Von-Neumann-Rechners 


Das Grundprinzip eines Universalrechners nach von Neumann: Prinzi- 
piell arbeiten auch aktuelle CPUs noch nach diesen Vorgaben. 


Rechenwerk 


Zentraleinheit 


Steuerarbeit 


N 


Sé 


Verbindungseinrichtungen 


"2 


Ein- und Ausgabe-System 
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N 
Be 


uch modernste Prozessoren 
N Befehle immer 
noch nach jenem Prinzip, welches 
der in Ungarn geborene Mathema- 
tiker John von Neumann bereits im 


Jahre 1945 konzipierte. 


Elementarer Aufbau 

Sein früher theoretischer Rechner 
bestand aus den Funktionseinhei- 
ten Steuerwerk, Rechenwerk, Spei- 
cher, Eingabe- und Ausgabewerk. 
Per Definition ist die Struktur des 
Von-Neumann-Rechners unabhän- 
gig von den zu bearbeitenden Pro- 
blemen, weshalb man eine solche 
Maschine auch Universalrechner 
nennt. Sie kann jedes beliebige Re- 
chenproblem lösen und ist nicht 
an eine spezielle Aufgabe gebun- 
den, wie es etwa ein Cola-Automat 


ist. 


Zur Lösung eines Problems muss 
von außen eine Bearbeitungs- 
vorschrift, das Programm, einge- 
geben und im Speicher abgelegt 
werden. Ohne dieses Programm 
ist die Maschine nicht arbeits- 
fähig. Programme, Daten, Zwi- 
schen- und Endergebnisse werden 
in demselben Speicher abgelegt. 
Der Speicher ist in gleich große 
Zellen unterteilt, die fortlaufend 
durchnummeriert sind. Über die 
Nummer (Adresse) einer Spei- 
cherzelle kann deren Inhalt ab- 
gerufen oder verändert werden. 
Befehle 


eines Programms werden in auf- 


Aufeinanderfolgende 
einanderfolgenden Speicherzel- 
len abgelegt. Das Ansprechen des 
nächsten Befehls geschieht vom 
Steuerwerk aus durch Erhöhen 


der Befehlsadresse um Eins. 


Durch Sprungbefehle kann von 
der Bearbeitung der Befehle in der 
gespeicherten Reihenfolge abgewi- 
chen werden. Es gibt arithmetische 
Befehle wie Addieren, Multiplizie- 
ren, Konstanten laden, logische 
Befehle wie Vergleiche, logisches 
NICHT, UND, ODER, Transportbe- 
fehle, zum Beispiel vom Speicher 
zum Rechenwerk und für die Ein-/ 
Ausgabe, bedingte Sprünge und 
sonstige Befehle wie Schieben, Un- 
terbrechen, Warten usw. Von eini- 
gen wenigen Ausnahmefällen abge- 
sehen, orientieren sich die heutigen 
PCs immer noch an der Struktur des 


klassischen Universalrechners. 


Von-Neumann-Zyklus 
Der Prozess der Befehlsverarbei- 
tung bei Von-Neumann-Rechnern 
wird Von-Neumann-Zyklus ge- 
nannt und besteht aus folgenden 
fünf nacheinander ablaufenden 
Teilschritten: FETCH, DECODE, 
FETCH OPERANDS, EXECUTE, UP- 
DATE (INSTRUCTION POINTER). 
Grundsätzlich gehört das Zurück- 
schreiben der Daten (WRITE oder 
WRITE BACK) auch noch dazu, der 
ursprüngliche Von-Neumann-Rech- 
ner kannte aber noch keine Zwi- 
schenspeicher und benötigte diese 
Schritte daher nicht. 


Das grundlegende Prinzip dieser 
Befehlsverarbeitung ist bis heute 
unverändert geblieben, der Einfach- 
heit halber wird es in CPU-Schaubil- 
dern manchmal auf die drei Phasen 
FETCH (engl.: „holen“), DECODE 
(engl.: „entschlüsseln“) und EXECU- 


TE (eng.: „ausführen‘“) reduziert. 


Befehlsverarbeitung 

Beim FETCH-Schritt wird aus RAM- 
oder ROM-Speicher der nächste zu 
bearbeitende Befehl geholt. Dieser 
Befehl wird bei DECODE durch das 
Steuerwerk in Schaltinstruktionen 
aufgelöst, die das Rechenwerk „ver- 
stehen“ kann. Aus RAM oder ROM 
werden nun bei FETCH OPERANDS 


die Operanden geholt, also die Wer- 
te, die durch den Befehl verändert 
werden sollen bzw. die als Parame- 
ter verwendet werden, also etwa 
die beiden Operanden einer Addi- 
tion. Bei EXECUTE wird die Opera- 
tion vom Rechenwerk ausgeführt. 
Im Schritt UPDATE INSTRUCTION 
POINTER wird der Befehlszähler 
erhöht, damit der Rechner „weiß“, 
an welcher Stelle des Programms er 
sich gerade befindet. Das geschieht 
parallel zum DECODE und FETCH 
OPERANDS. Beim EXECUTE kann 
der Befehlszähler wieder verändert 
werden (Sprungbefehl). Anschlie- 
ßend beginnt der Zyklus in der Re- 
gel von vorn und der nächste Schritt 


des Programms wird ausgeführt. 


Schalter und 

Transistoren 

Prozessoren arbeiten mit Strom, re- 
spektive mit elektrischen Schaltern, 
Transistoren genannt. Der Transis- 
toreffekt wurde 1947 durch William 
Shockley, John Bardeen und Wal- 
ter Brattain in den Bell Laborato- 
ries von der Firma AT&T entdeckt. 
Später erhielten sie dafür den No- 
belpreis für Physik. Durch einen 
kleinen Steuerstrom kann in einem 
Transistor ein wesentlich größerer 


Strom gesteuert werden. 


Der Transistor wurde auf der 
Grundlage der Diode entwickelt. 
Eine Diode besteht aus zwei do- 
tierten Halbleiterschichten (NP- 
beziehungsweise PN-dotiert) und 
lässt Strom nur in einer Richtung 
durchfließen. Ein Transistor ist im 
Wesentlichen eine Zusammenschal- 
tung aus drei Diodenhälften (NPN 
beziehungsweise PNP), wobei die 
obere und untere Schicht als Kol- 
lektor beziehungsweise Emitter 
und die mittlere Schicht als Basis 


bezeichnet werden. 


Bipolartransistor 
Beim Bipolartransistor steuert ein 


Strom im Basis-Emitter-Kreis einen 


stärkeren Strom im Kollektor-Emit- 


ter-Kreis. 


Der Vorteil dieser stark miniaturi- 
sierten Schalter: Es passen Tausen- 
de, ja Millionen davon auf einen ein- 
zigen Chip. Die Kombination aus 
diesen Millionen von Transistoren 
erlaubt die Darstellung von unzäh- 
ligen Funktionen, die wiederum in 
ihrer Kombination den Befehlssatz 


eines Prozessors ausmachen. 


Das Binärsystem 

Das Binärsystem beschreibt ein 
Stellenwertsystem zur Darstellung 
von Zahlen auf der Basis 2. Warum 
ausgerechnet die 2? Wenn eine In- 
formationseinheit wie beim Fluss 
von Strom nur zwei Zustände (Ein/ 
Aus) annehmen kann, dann kann 
man Zahlen natürlich nicht im De- 
zimalsystem (Basis 10) darstellen, 
wie wir es normalerweise tun. Man 
muss sich auf das Binärsystem be- 


schränken. 


Während bei unserem Dezimalsys- 
tem zehn Zahlen (0 bis 9) möglich 
sind, ehe wir eine zusätzliche Stelle 
benötigen (10), sind es bei Dualzah- 
len nur zwei. Zählen würden wir 
demnach so: 0, 1, 10, 11, 100, 101, 
110 usw., wobei die Binärzahl 10 im 
Dezimalsystem der 2 entspricht, die 
duale 11 der 3 usw. Es ändert sich 
also nichts an den Zahlen, sondern 


nur an der Schreibweise. 


Mit diesen Dualzahlen im binären 
Code (daher auch Binärzahlen 
oder Zahlen im Binärcode ge- 
nannt) kann eine aus Schaltungen 
bestehende Maschine nun arbei- 
ten. Man muss nur festlegen, dass 
eine Eins dem Zustand „Strom 
fließt“ bzw. „Spannung angelegt“ 
entspricht, eine Null dem Zustand 
„Strom fließt nicht“ bzw. „Keine 
Spannung angelegt“. Wie genau 
das Rechnen mit Binärzahlen 
funktioniert, zeigen die folgenden 


Seiten. 


Prozessor 


Wie ein Transistor 
Strom leitet 


Transistoren funktionieren wie Schalter: Liegt ein schwacher Strom an 
(Mitte, Gate), kann ein stärkerer Strom von der Quelle (Source, links) 
zur Ableitung fließen (Drain, rechts). Hier dargestellt ist ein in CPUs ver- 
wendeter Feldeffekttransistor. 


Source Gate 


Wie ein Transistor 
aufgebaut ist 


Der oben dargestellte Transistor ist ein Metalloxid-Halbleiter-Feld- 
effekttransistor. Dieser kann in zwei Arten realisiert werden: entweder 
der Kanal befördert positive („p-dotiert“) oder negative Ladungen 
(„n-dotiert“). Bei p-dotierten Transistoren wurden entweder zusätzliche 
positive Ladungsträger in das Material (im Bild oben die graue Fläche 
unten) eingefügt oder dem Material wurden Elektronen entzogen, wo- 
durch sogenannte Löcher entstehen. 


Im „Normalzustand“ fließt in unserem Beispieltransistor kein Strom; 
denken Sie sich den blauen Kanal in der Mitte einfach weg oder - wenn 
es ganz genau sein soll - stellen Sie sich diesen als Dreieck vor, das 
auf der einen Seite so dünn ist, dass dort keine Elektronen durchwan- 
dern können. 


Liegt nun eine Spannung am Gate an, werden unterhalb des Isolators 
(hier orangefarben dargestellt) Elektronen angezogen (das Gate lässt 
sich je nach Ausführung mit positiver oder negativer Spannung be- 
treiben). Der Kanal entsteht und ist negativ geladen; er wirkt wie eine 
Brücke und erlaubt den Stromfluss zwischen Source und Drain. Wäre 
die Gatespannung negativ, würde sie die Elektronen im Kanalbereich 
abstoßen und den Stromfluss in diesem Falle unterbinden. 


Das Isolatormaterial bestand früher aus einem Metalloxid, üblicher- 

weise Siliziumdioxid. Daher nennt man die Transistoren auch „Metal 
Insulator Semiconductor Field Effect Transistors“ oder einfach kurz: 
MOSFETs. Heute wird in der Regel dotiertes Polysilizium verwendet, 
die Bezeichnung MOSFET wurde aber beibehalten. 
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Bild: Intel 


Prozessor 


So rechnen Prozessoren 
binär (einfache Addition 


SCH 


Bei den ersten Prozessoren konnte man die einzelnen Logikgatter noch er- 
kennen; hier ein Ingenieur vor einer Rubylith-Folie, die zum Design früherer 
CPUs verwendet wurde 
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rozessoren arbeiten nicht mit 
Pi von uns gewohnten Dezi- 
malzahlen, sondern verwenden Bi- 
närzahlen. Diese sind wie im vorher- 
gehenden Abschnitt beschrieben an 
die Eigenheiten der Elektronik an- 
gepasst und somit hervorragend für 
diesen Einsatzzweck geeignet. 
Binärzahlen dienen dabei aber 
nicht nur zum Rechnen, sondern 
zur Darstellung jeglicher Form von 
Daten in einem Computer. Sie wer- 
den über das interne Bussystem 
weitergeleitet, im Speicher festge- 
halten oder über das Internet ver- 
schickt. 


Binäres Zählen 

Dass Binärzahlen anders bezeichnet 
werden als Dezimalzahlen, sollte 
nicht abschrecken: Eine Neun ist für 
einen Prozessor ebenso eine Neun 
wie sie es für uns ist, aber er schreibt 
sie anders. Das hat technische Grün- 
de: Prozessoren können nur zwi- 
schen zwei Zuständen unterschei- 
den. Entweder es sind elektrische 


Ladungen vorhanden oder nicht. 


Zählen wir im Dezimalsystem hoch, 
so fangen wir bei 0 an, es folgt die 
1, die 2 und schließlich kommen 
wir zur 9. Dann brauchen wir eine 
zweite Stelle, denn mehr Ziffern 
gibt es nicht. Also wird die 9 auf 
den Anfang zurückgesetzt (0) und 
die Ziffer links neben der 9 wird um 
eins erhöht. Links neben der 9 steht 
normalerweise keine Ziffer, deshalb 
nehmen wir einfach an, dass die 
Null dort steht, und erhöhen sie um 
eins. Und so folgt auf die (0)9 die 
10. Diese Art der Zahlendarstellung 


heißt Stellenwertsystem und ist für 


uns heute vollkommen selbstver- 
ständlich. 


Es gibt aber auch andere Systeme 
wie beispielsweise die römischen 
Zahlen: Hier ist die III kleiner als 
die V, obwohl sie aus mehr Ziffern 
besteht. 


Binäre Stellen 

Auch Binärzahlen sind, wie für uns 
gewohnt, ein Stellenwertsystem. 
Der Unterschied ist, dass sie weni- 
ger Ziffern kennen; denn mit den 
beiden Zuständen „Strom“ und 
„Kein Strom“ lassen sich nur maxi- 
mal zwei Ziffern realisieren. Diese 
werden üblicherweise als 0 und 1 
bezeichnet. Zudem haben Prozesso- 
ren eine Maximallänge der Zahlen: 
Ein 32-Bit-Prozessor kann nur 32 
Nullen oder Einsen aneinanderrei- 


hen, dann ist Schluss. 


Für die meisten Beispiele hier ver- 
wenden wir jedoch einen 4-Bit-Pro- 
zessor: Das System ist dasselbe, 
doch bleibt die Rechnerei so eini- 


germaßen übersichtlich. 


Binäre Addition (1) 

Bevor es um den Teil des Prozes- 
sors geht, der zwei binäre Zahlen 
addiert, sollten wir diese Addition 
erst selbst verstanden haben. Die 
folgenden Erklärungen sind dann 
deutlich leichter zu verstehen. Die 
Rechenverfahren in Computern 
ähneln sehr stark den schriftlichen 
Verfahren, die Kinder in der Grund- 
schule lernen: Sie sind schematisch 
und deshalb leicht anzuwenden, 
aus mancher Sicht aber wohl etwas 
umständlich. Kaum jemand würde 
an schriftliche Addition denken, 
wenn er 13 und 26 addieren möch- 
te - und sobald die Zahlen zu groß 
werden, greift man ohnehin meis- 


tens zum Taschenrechner. 


Möchten wir zwei binäre Zahlen 
addieren, müssen wir aber auf die 


schriftliche Addition zurückgrei- 


fen. Das Vorgehen wird im folgen- 
den kurz erklärt, ein bebildertes 
Beispiel findet sich auf der rechten 
Seite. Zunächst werden die beiden 
Zahlen übereinander geschrieben. 
Haben sie nicht dieselbe Länge, so 
muss die längere Zahl links her- 
vorragen. Anschließend geht man 
die beiden Zahlen von rechts nach 
links durch und addiert immer zwei 


übereinanderliegende Ziffern. 


Würden im Dezimalzahlensystem 
eine 3 und eine 4 übereinander ste- 
hen, so wäre das Ergebnis 7. Dieses 
könnten wir dann einfach darunter 
schreiben und eine Stelle weiter 
links weitermachen. Wären die 
beiden Ziffern aber beispielsweise 
6 und 8, so wäre das Ergebnis 14. 
Hier müsste die 4 als Ergebnis auf- 
geschrieben werden und die 1 zu- 
sätzlich zu den beiden Ziffern eine 
Stelle weiter links addiert werden. 
Sie wäre ein sogenannter Übertrag 


(englisch „Carry“). 


Binäre Addition (2) 

Im binären Zahlensystem ist das 
Vorgehen identisch, nur haben wir 
hier, wie bereits besprochen, nur 
zwei unterschiedliche Ziffern. Ste- 
hen zwei Oen übereinander, so ist 
das Ergebnis auch 0. Stehen eine 0 
und eine 1 übereinander, so ist das 
Ergebnis 1. Stehen zwei len überei- 
nander, ist das Ergebnis 0 und die 
Stelle eins weiter links erhält den 
Übertrag 1. 


Als letzte Möglichkeit können noch 
drei len übereinander stehen: Je 
eine von den beiden zu addieren- 
den Zahlen und vom Übertrag. Hier 
wäre das Ergebnis 1 mit erneutem 
Übertrag. All diese Varianten finden 
sich auch in unserem Beispiel. Die- 
ses Schema der stellenweisen Addi- 
tion wird für die gesamte Länge der 
beiden Zahlen durchgeführt und 
am Ende erhält man das Ergebnis. 
Ein Prozessor führt eine Addition 


auf exakt dieselbe Weise durch, wo- 


bei er sich dafür natürlich einer spe- 


ziellen Schaltung bedient. 


Rechnen mit Strom 

Zum binären Rechnen mit Strom 
brauchen wir nun „nur“ noch ei- 
nen Schaltung, welche die binären 
Rechengesetze korrekt umsetzen 
kann. Wir müssen sicherstellen, 
dass zwei Nullen am Eingang eine 
Null am Ausgang ergibt. Ebenso 
müssen zwei verschiedene Span- 
nungen am Eingang (0/1 bzw. 1/0) 
immer eine 1 am Ausgang ergeben 


und so weiter. 


Um solche Gesetzmäßigkeiten ab- 
bilden zu können, gibt es sogenann- 
te „Logikgatter“. Dabei handelt es 
sich letztlich um aus Transistoren 
gebaute Funktionseinheiten, die 
Eingangsströme in bestimmte Aus- 
gangsströome umwandeln. Einige 
Beispiele solcher Schaltungen ha- 
ben wir auf der folgenden Seite il- 


lustriert. 


Der Halbadder 

Mit zwei solcher Logikgatter kann 
man bereits einen „Halbadder“ bau- 
en, der die grundlegenden Rechen- 
operationen unserer Beispieladditi- 
on 108 plus 106, oder besser gesagt: 
01101100 plus 01101010, korrekt um- 
setzt. Ein Halbadder ist einfach eine 
elektrische Schaltung, die aus zwei 
Ein-Bit-Ursprungswerten A und B 
ein Zwei-Bit-Ergebnis produziert, 
das aus einer Summe S und einem 
Carry-Bit („Übertrag“) C besteht. 
Der Aufbau ist im Schaubild rechts 
dargestellt. 


Gatter 
Die für den Halbadder benötigten 
Funktionen (,„Gatter“) sind XOR 
(„exklusives ODER“) sowie AND 
(„UND“). 


Für die eigentliche Rechenopera- 
tion ist das XOR-Gatter zuständig. 
Ein XOR liefert immer dann eine 1 


als Ergebnis, wenn A und B vonein- 


Prozessor 


"Normale" Darstellung 


Dezimal 


108 
+106 


= 214 


0110 1100 
+0110 1010 
F= 


=1101 0110 


Einie Beispieladdition: Es sollen die binären Zahlen 01001100 (=dezimal 108) 


und 01101010 (dezimal 106) addiert werden. Die Binärzahlen sind hellblau 
dargestellt, Dezimalzahlen rot und der Übertrag orangefarben 


Wie ein Halbadder 
die Summe berechnet 


Halbadder: Das schematische Schaltbild zeigt die im Fließtext be- 
schriebenen Operanden A, B, S und C sowie die logischen Operatoren 
XOR und UND. In der Abbildung werden Ein- und Ausgänge durch 
Linien symbolisiert, die einzelne Gatter verbinden. Kreuzen sich Linien, 
so gelten sie nur als verbunden, wenn sich an dieser Stelle ein Punkt 
befindet. 


us) 
Wel 
olo|_ > 
CH 
ol olo O 
CH 
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Prozessor 


Übersicht: Grundlegende 
Logikgatter (Auswahl) 


Nachfolgend eine Übersicht häufig verwendeter Logikgatter; die 
Schaltzeichen links können je nach Land und Industrienorm unter- 
schiedlich aussehen. 


UND-Gatter (AND) 


Ein UND-Gatter gibt nur dann Strom aus, wenn an beiden Eingän- 
gen Strom anliegt 


ODER-Gatter (OR) 


A Z> 
B out 


Anders das ODER-Gatter: Es liefert eine 1, wenn einer der beiden 
Eingängen eine 1 liefert - aber auch, wenn beide eine 1 eingeben! 


NICHT-Gatter (NOT) als 


1 D 
A out 


Das NICHT-Gatter invertiert ein beliebiges Bit: Aus 0 wird 1, aus 1 
wird 0 


Exklusives-ODER-Gatter (XOR) 


o|o 

A iai 
B out ılo|ı 
linn 


Eine Schaltung, die viele beim ODER-Gatter erwarten würden: Ist 
einer der beiden Eingänge eine 1, ergibt der Ausgang ebenfalls eine 
1 - andernfalls eine 0 


o/lo|> 


Negiertes-UND-Gatter (NAND) B|s 
o 1 
1 1 
A 
0 1 


Das NAND-Gaitter liefert eine 0, wenn beide Eingänge Strom führen 
- und ist somit ein invertiertes UND-Gatter 
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ander differieren. Ansonsten liefert 
XOR eine 0 - perfekt! Denn genau 
das brauchen wir für die Addition 
der beiden Binärzählen, wenn wir 
wie ioben beschrieben jede Stelle 
einzeln addieren wollen. Zur Erinne- 
rung: 0 und 0 gibt 0, wärend O und 1 


eine 1 ergeben sollen und so weiter. 


Es gibt nur ein kleines Problem: 
den Übertrag. In irgendeiner Form 
muss berücksichtig werden, ob die 
Eingangsoperanden 1 und 1 waren. 
Aus dem Ergebnis alleine können 
wir das nicht ablesen, denn 0 und O 


ergibt ebenfalls eine 0 am Ausgang. 


Für diesen Zweck werden die 
Eingangsströme zusätzlich an ein 
zweites Gatter umgeleitet. Dieses 
Mal brauchen wir aber kein XOR-, 
sondern das oben bereits erwähnte 
UND-Gatter. Schließlich wollen wir 
nur wissen, ob beide Eingangsströ- 
me aktiv waren, ob wir also gerade 
1 und 1 addieren oder nicht. Ist dies 
der Fall, soll am Ausgang ebenfalls 
Strom fließen, mithin eine 1 ausge- 


geben werden. 


Das UND-Gatter liefert genau diese 
Information: Bei der Addition von 
0 und 0 bleibt wie bei der Addition 
von 0 und 1 am UND-Gatter eine 0 
am Ausgang stehen. Erst bei 1 und 
1 am Eingang steht auch eine 1 am 


Ausgang. 


Wie die Summe korrekt 
berechnet wird 

Mit dieser einfachen Schaltung kön- 
nen wir bereits rudimentär addieren 
- nicht schlecht! Doch leider reicht 
das noch nicht ganz für die Additi- 
on von 01101100 plus 01101010. Das 
Problem: Der Halbadder ignoriert 


alle vorherigen Überträge. 


Um korrekt zu rechnen, brauchen 
wir aber genau diese Funktion. Eine 
Schaltung, welche die vorherigen 
Überträge berücksichtigt, heißt 


„Volladder“. Dieser hat drei Eingän- 


ge: einen für die aktuelle Ziffer der 
ersten Zahl, einen für die Ziffer der 
zweiten Zahl sowie einen dritten für 
einen etwaigen Übertrag, Ein Vollad- 
der ist nicht wesentlich komplexer, 
benötigt aber zusätzliche Logikgat- 


ter. 


Volladder 

Konkret benötigen wir je ein wei- 
teres UND- sowie XOR-Gatter. Zu- 
sätzlich brauchen wir ein neues 
ODER-Gatter. Beim ODER-Gatter 
wird eine 1 als Ergebnis geschrie- 
ben, wenn eine der beiden Aus- 
gangszahlen eine 1 hatte. Wie genau 
er unseren Volladder komplettiert, 
sehen wir, wenn wir die Schaltung 
näher betrachten. Den schemati- 
schen Aufbau finden Sie auf der 


rechten Seite. 


Der linke Teil des Volladders ent- 
spricht exakt dem bekannten Halb- 
adder. Der Unterschied besteht da- 
rin, dass das Übertrags-Bit („Carry 
Bit“) im Anschluss der ersten Be- 
rechnung für eine zweite Berech- 
nung genutzt wird. Dies entspricht 
exakt jenem Schritt, der auch beim 
manuellen Rechnen durchgeführt 
wird: Existiert ein Übertrag, so 
muss dieser mit der Summe der 
beiden Operanden verrechnet wer- 
den. In unserem Additionsbeispiel 
01101100 plus 01101010 ist dies an 
der ersten, zweiten und vierten Stel- 
le (von links) notwendig - sehen Sie 
sich hierzu bitte noch einmal die 
Abbildung auf der vorhergehenden 
Seite an, dort sind die Überträge mit 
einer orangefarbenen 1 kenntlich 


gemacht. 


Das ist aber noch nicht alles. Es muss 
ein neuer Übertrag enstehen, wenn 
entweder der erste Rechenschritt 
(die Addition) oder der zweite Re- 
chenschritt (die Verrechnung mit 
dem Übertrag) der Schaltung zwei 
ler ausgibt. Dies wird mit dem neu- 
en ODER-Gatter erreicht. Salopp 


gesagt, funktioniert es so: „Wenn 


Wie ein Volladder die Summe berechnet 


Der Volladder benötigt im Vergleich zum Halbadder drei weitere Logikgatter: XOR, UND sowie OR. In unseren Abbildungen werden Ein- und Ausgänge durch 
Linien symbolisiert, die einzelne Gatter verbinden. Kreuzen sich Linien, so gelten sie nur als verbunden, wenn sich an dieser Stelle ein Punkt befindet. 


s 
ES, 


Prozessor 


cı | A a [co] 
ole olo 
olo ılılo 
olılolılo 
olılJıJolı 
ılolo/ılo 
loJılJo/i 
ılıJoJojJı 


eines der UND-Gatter positiv war 
(und damit beide Eingangswerte je- 
nes Gatters eine 1 waren), dann gib 
den Übertrag einfach weiter an die 


nächste Stelle.“ 


Mehr Schaltungslogik 

Sie haben nun im Wesentlichen die 
Schaltungslogik einer Addition ken- 
nengelernt. Unsere Beispiel-Schal- 
tung könnte theoretisch beliebig 
lange Zahlen addieren - und das mit 
einem einzelnen Volladdierer und 
lediglich einer Handvoll Transisto- 


ren! 


Der Nachteil allerdings ist, dass sie 
immer nur eine Stelle zweier Binär- 
zahlen addieren kann. Jedes Mal 
muss das Ergebnis gespeichert und 
die nächsten Ziffern geladen wer- 
den. Das benötigt zusätzliche Zeit 
und eine einzelne Addition zweier 
Zahlen würde verhältnismäßig lange 
dauern. Schon bei einer 8-Bit-Zahl 
würden mindestens 24 Takte verge- 
hen - für jede Stelle je ein Takt, um 
die Daten zu holen, die Berechnung 
durchzuführen und das Ergebnis zu 
schreiben (in der Praxis wären es 


noch viel mehr ...). 


Parallele Rechenwerke 

Am einfachsten löst man dieses Pro- 
blem mit einem parallel arbeiten- 
den Addierer. Bei diesem hat man 
nicht einen einzelnen Volladdierer, 
sondern mehrere nebeneinander. 
Möchte man zwei Zahlen mit je acht 
Bit addieren, so verschaltet man 
einfach acht Volladdierer und das 


Ergebnis steht ohne erneuten Spei- 


cherzugriff direkt bereit. 


Ein Problem ist noch, dass der je- 
weils vorherige Volladdierer fer- 
tig gerechnet haben muss, damit 
der nachfolgende Volladdierer das 
richtige Carry-Bit erhält. Die Addi- 


tion könnte so (vereinfacht darge- 


Hexadezimalsystem 


Neben dem uns vertrauten Dezimalsystem und dem binären System gibt es noch weitere Zahlensysteme. Am 
bekanntesten dürfte das Hexadezimalsystem sein. Es verwendet als Basis 16 Ziffern - statt 2 wie beim binären 
oder 10 beim dezimalen System. Die Zahlen 0 bis 9 sind hier die gleichen wie beim Dezimalsystem. Um eine de- 
zimale 10 darzustellen, verwendet es aber dann den Buchstaben A, für eine dezimale 11 das B bis hin zum F für 


die Dezimalzahl 15. 


Für das dezimale 16 wird dann im 
Hexadezimalsystem eine zweite 
Stelle benötigt. Die Verwendung 
dieser Schreibweise hat praktische 
Gründe: Das binäre „0010 1101“ 
lässt sich schlicht deutlich schlech- 
ter merken als das hexadezimale 
„2D“. Gegenüber Dezimalzahlen 
hat man den Vorteil, dass man He- 
xadezimalzahlen leicht umwandeln 
kann: Immer vier Binärziffern erge- 
ben genau eine Hexadezimalziffer, 
die rechten vier Ziffern der Bei- 
spielzahl ergeben 13 (dezimal) und 
somit D (hexadezimal); die linken 
vier Ziffern ergeben 2. 


stellt) in 10 Takten durchgeführt 
werden (Lesen, 8-mal 
Schreiben). 


Rechnen, 


Aus diesem Grund gibt es besonde- 
re Aufbauten wie den Carry-Look- 
Ahead- oder den Carry-Skip-Addie- 
rer, die eine schnellere Berechnung 


des Carry-Bits ermöglichen. Hierbei 
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Prozessor 


Volladdierer 


Cout 


Cin 


Volladdierer 


Cout 


Cin 


Volladdierer 


Cout 


Cin 


A 
Cout 
i E 


Einzelne Volladdierer können beliebig oft hintereinander gehängt werden. Da- 
durch kann man Binärzahlen mit mehreren Stellen auf einmal addieren. Prob- 


lematisch ist allerdings der Übertrag (Cin, Cout): Dieser muss alle Addierer 
durchwandern und verzögert dadurch die Berechnung 
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gilt es immer, einen sinnvollen Mit- 
telweg zu finden: Eine Schaltung, die 
das Ergebnis zehn Prozent schnel- 
ler bereitstellen kann, ist toll, es sei 
denn, sie benötigt die dreifache 
Menge Transistoren und damit deut- 


lich mehr Strom. 


Mehr Gatter 

Neben den drei vorgestellten Logik- 
gattern gibt es eine Reihe weiterer, 
von denen wir die wichtigsten kurz 


vorstellen möchten. 


Bei einer NICHT-Funktion wird die 
Zahl einfach invertiert, also überall, 
wo eine 0 stand, wird eine 1 aus- 
gegeben und umgekehrt. Benötigt 
wird eine solche Umkehrung un- 
ter anderem für das Komplement 
(siehe folgende Seiten). Ähnliches 
gilt für das NAND-Gatter. Die- 
ses entspricht letztlich nur einer 
UND-Schaltung mit nachgelagerter 
NICHT-Verschaltung. Sollen O und O 
am Eingang eine 1 am Ausgang er- 
zeugen - und nicht eine 1 und eine 
1 -, so kommt ein NAND-Gatter 
zum Einsatz. 


Natürlich funktioniert das Ganze 
auch mit komplizierteren Zahlen. 
„NICHT 0111“ würde zum Beispiel 
als Ergebnis „1000“ liefern. Eine 
ODER-Verknüpfung 
„1001“ und „1010“ würde als Ergeb- 
nis „1011“ ausspucken, während ein 
XOR als Ergebnis „0011“ hätte. Die- 
selben beiden Zahlen mit UND statt 
mit ODER verknüpft, hätte „1000“ 


als Ergebnis. 


zwischen 


Mehr Rechenwerke 

Analog zu den Varianten der Gat- 
ter gibt es mehrere Möglichkeiten, 
einen Volladder zu bauen. Die von 
uns vorgestellte Lösung wird häu- 
fig genannt, je nach Anforderungen 
lässt sie sich aber auch mit anderen 


Designs umsetzen. 


Wie man sieht, kann man mit sim- 


plen logischen Funktionen binäre 


Zahlen manipulieren oder mathe- 
matische Berechnungen durchfüh- 
ren. Mit der richtigen Abfolge an 
Schritten ist ein simpler Prozessor 
bereits in der Lage, Zahlen zu addie- 
ren. Ein paar dieser Einheiten mitei- 
nander kombiniert - und man kann 
subtrahieren, multiplizieren oder 


Ganzzahlen dividieren. 


Die Summe dieser Teilschaltungen 
wie Vergleicher, Halbadder, Vollad- 
der usw. ergibt das Rechenwerk in 
der Von-Neumann-Architektur. Die- 
ses enthält eine oder mehrere ALUs 
(Arithmetic Logic Unit), welche die 
Berechnungen ausführen und ge- 
wissermaßen „Entscheidungen tref- 


fen“ können. 


Stromverbrauch und 
Kompromisse 

Jedes Gatter hat einen bestimmten 
Stromverbrauch und eine Schalt- 
zeit. Letztere gibt an, wie lange es 
braucht, bis das Gatter auf Änderun- 
gen am Eingang reagiert. Verbaut 
(und nutzt) man mehrere Gatter, 
so steigt auch der Stromverbrauch. 
Werden mehrere Gatter hinterein- 
ander verbaut, so steigt die resultie- 


rende Verzögerungszeit. 


Diese beiden Eigenschaften sind 
bei der Entwicklung von Prozes- 
soren ein Problem: Der Stromver- 
brauch soll möglichst niedrig und 
die Schaltzeit möglichst gering sein. 
Ersteres ist offensichtlich, letzteres 
hängt mit der Taktfrequenz zusam- 
men. Diese kann maximal so hoch 
sein, dass selbst die langsamste be- 
ziehungsweise längste Kette von 
Gattern noch genügend Zeit hat, 


um zu reagieren. 


Verschärft wird das Problem, je län- 
ger die interne Zahlenlänge ist. Was 
bei 32-Bit-Zahlen noch in akzeptab- 
ler Zeit funktioniert, kann bei 64 Bit 
langen Zahlen schon zu inakzeptab- 
lem Verzögerungen führen (mehr 


zu Registern im weiteren Verlauf). 


W 7ir wollen nicht zu tief in die 
Binärarithmetik und die Lo- 
gik der Gatter einsteigen - doch ein 


wichtiges Problem muss noch er- 


wähnt werden ... 


Negative Zahlen 

Die Binärzahlen, wie wir sie bis 
jetzt kennen, können zwar Zahlen 
darstellen, aber nur ganze positive 
Zahlen und die Null. Wie stellt man 
aber binär beispielsweise eine dezi- 


male -4 dar? 


Um negative Zahlen darzustellen, 
kann man ein zusätzliches Bit hin- 
zufügen, ein sogenanntes „Vorzei- 
chen-Bit“. Dieses würde in der x86- 
Welt links „angehängt“. Ist es 0, so 
ist die Zahl positiv, ist es 1, ist die 
Zahl negativ. Allerdings kann man 
mit dieser einfachen Lösung nicht 


immer korrekt rechnen. 


Als Beispiel soll die dezimale Addi- 
tion von 3 und -4 dienen. Das richti- 
ge Ergebnis ist -1. Bei einer binären 
Darstellung würden 0011 (dezimal 
3) sowie 1100 (dezimal -4, die ganz 
linke Stelle gibt das Vorzeichen an) 
verrechnet, was 1111 und damit 
nach unserer Logik -7 (dezimal) er- 


geben würde. 


Einerkomplement 

Abhilfe schaffen kann das soge- 
nannte „Einerkomplement‘. Beim 
Einerkomplement werden alle Stel- 
len einer Binärzahl invertiert. Aus 
1011 wird demnach 0100. In Kom- 
bination mit dem erwähnten Vor- 
zeichenbit kann man nun korrekt 
rechnen! Wieder unser Beispiel: 
Die Addition von 3 und -4 stellt sich 
binär nun wie folgt dar: 0011 (+3, 
unverändert) und 1011 (-4, komple- 
mentär) ergeben 1110. Das Ergeb- 
nis 1110 beginnt mit einer 1, ist also 
negativ. Bilden wir von den verblei- 
benden Stellen das Komplement, er- 
gibt dieses 001, also eine dezimale 
1 - die aufgrund des Vorzeichenbits 


als -1 interpretiert wird. 


Prozessor 


So rechnen Prozessoren 
lexe Operationen 


Doch auch damit ist das Problem 
noch nicht vollständig gelöst. Zwar 
gibt es nun auch negative Zahlen, 
aber auch eine negative Null: Ge- 
hen wir von einem Byte aus, so 
würde 0000 0000 der Zahl +0 ent- 
sprechen und 1000 0000 der -0. Aus 
mathematischer Sicht ist das unsin- 
nig, deshalb wurde das sogenannte 


Zweierkomplement entwickelt. 


Das Zweierkomplement 
Das Zweierkomplement funktio- 
niert exakt wie das Einerkomple- 
ment - mit dem Unterschied, dass 
am Ende jeweils noch eine binäre 
1 hinzuaddiert wird. Aus der de- 
zimalen -4 wird jetzt die binäre 
Ziffer 1100 (das Komplement von 
4 ist 1011 plus 1 ergibt 1100; der 
Übertrag im letzten Schritt wird ig- 
noriert). Wichtig: Das Zweierkom- 
plement wird wie das Einerkom- 
plement nur für die negative Zahl 
gebildet, die dezimale 3 bleibt binär 
unverändert 0011. Führen wir nun 
die binäre Rechnung durch, lautet 
das Ergebis 1100 plus 0011, was 1111 
ergibt. Das Ergebnis müssen wir 
nach den Zweierkomplement-Re- 
geln wieder zurückwandeln, was 
am Ende -1 ergibt (nehmen Sie am 
besten die kreisförmige Komple- 
ment-Darstellung oben rechts zu 
Hilfe). 


Interpretationssache 

Mit dem Zweierkomplement ändert 
sich also die „Interpretation“ eines 
Bytes. Man kann mit einem Byte 
nicht mehr die Zahlen von O bis 
255 darstellen, sondern die Zahlen 
von -128 bis 127. Diese Darstellung 
der Zahlen ist vor allem deshalb 


vorteilhaft und gewissermaßen al- 


Das Zweierkomplement in der Übersicht: Binärzahlen sind hellblau, Dezi- 
malzahlen in klassischer Darstellung rot (äußerer Kreis). Die komplementär 


dargestellte Dezimalzahl ist im innersten Kreis abgebildet. Die vier Bits (im 
Fachjargon: Nibble) stehen damit nicht mehr für die Zahlen von 0 bis 15, 
sondern für die Zahlen -8 bis 7. Das erste Bit (ganz links) zeigt das Vorzeichen 


Dezimal Binär 


1100 


+ 0011 


(II 
= 1111 


Das Zweierkomplement „in Aktion“: Die dezimale, positive 4 ist binär ge- 
schrieben 0100. Ihr Zweierkomplement lautet 1100 (siehe Fließtext). Bei der 


dezimalen 3 ändert sich nichts. Das binäre Rechenergebnis 1111 ergibt in 
der Zweierkomplement-Darstellung den richtigen Wert (dezimal -1) 
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Prozessor 


ternativlos, weil sie ohne weitere 
Änderungen mit den vorher gezeig- 
ten Volladdierern funktioniert: Man 
kann einfach zwei beliebige positi- 
ve oder negative Zahlen addieren 
und das Ergebnis ist (fast) immer 


richtig. 


Überlauf 


Eine Veränderung gibt es beim 
Überlauf, den wir bisher noch nicht 
besprochen haben: Hat man eine Bi- 


närzahl, die nur aus len besteht, im 


Falle eines Bytes also 1111 1111, und 
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addiert man 1 hinzu, so würde 1 
0000 0000 als Ergebnis herauskom- 
men. Da die neunte Stelle aber nicht 
dargestellt werden kann, kommt es 
zu einem Überlauf. Eine Binärzahl 
in klassischer Darstellung würde 
dadurch auf Null zurückgesetzt 
werden, die neunte Ziffer fällt weg. 
In der Komplement-Darstellung 
gibt es dasselbe Problem, aber bei 
der größten positiven Zahl. Addiert 
man zu einer 0111 1111 (127) eine 1 
hinzu, so wird eine 1000 000 (-128) 
daraus. 


ASSY NO. 2504 


T 


Bei älteren Prozessoren wie dem MOS 6569, der im legendären C64 verbaut 
wurde, kann man Rundungsfehler bei Gleitkommaberechnungen „live“ beob- 
achten. Eine Demo gibt‘s unter vimeo.com/330159336 


Binäre Zahl ohne Kommastelle 


128 64 | 32|16] 8 ENER äi 
LOL 


Ergebnis: 1x128 + 1x32 + 1x4 + 1x2 = 166 


Binäre Zahl mit Kommastelle 


16] 8}4 12 {1 }0,5[0.25]0:35 
ESEAFIFIEJETETENT 


Ergebnis: 1x16 + 1x8 + 1x1 + 1x0,25 = 25,25 


Umrechnung von binären Zahlen mit und ohne Kommastelle ins Dezimalsys- 
tem: Das Vorgehen ist dabei gleich wie bei der,normalen“ Umrechnung. Für 


jede 1 wird die Zahl der jeweiligen Spalte hinzuaddiert. Zu bedenken ist, dass 
der Trennpunkt zwischen der 0,5 und der 1 an beliebiger Stelle gesetzt werden 
kann - je nach Interpretation 
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Überläufe sind dabei kein theoreti- 
scher Sonderfall, sondern kommen 
tatsächlich vor: Sofern der Program- 
mierer nicht verhindert, dass ein 
solches Szenario eintreten kann, 
können auch moderne Prozessoren 
zu falschen Ergebnissen kommen. 
Beliebt sind solche Fehler vor allem 
bei Zahlen, denen wenig Beachtung 
geschenkt wird - beispielsweise bei 
Ingame-Statistiken. Stehen dort gro- 
ße negative Zahlen, wo eigentlich 
positive Zahlen zu erwarten gewe- 
sen wären, so hat der Programmie- 
rer einen Fehler gemacht und der 
Spieler die Zahl zum Überlaufen 
gebracht. 


Weitere Rechenarten 

Da unser Prozessor jetzt positive 
und negative Zahlen darstellen und 
addieren kann, kann er auch alle üb- 
lichen Rechenarten durchführen: 
Die Subtraktion wird zur Addition 
mit einer negativen Zahl, die Multi- 
plikation zur mehrfachen Addition 
und die Division zur mehrfachen 


Addition mit einer negativen Zahl. 


Probleme gibt es einzig beim letzt- 
genannten Verfahren, denn teilt 
man zwei Zahlen durch einander, 
so bleibt manchmal ein Rest übrig. 
Zudem können wir im Moment 
noch keine Nachkommastellen dar- 
stellen, doch zumindest den Teiler 
und den Rest können wir bereits he- 
rausfinden. Auch das ist wieder pra- 
xisrelevant: Programmierer müssen 
sich entscheiden, ob sie Kommazah- 
len oder ganze Zahlen verwenden. 
Ersteres ist langsamer, Letzteres we- 


niger flexibel. 


Darstellung von (Gleit-) 
Kommazahlen 

Für die Darstellung von Kommazah- 
len gibt es eine simple Lösung: Wir 
denken uns einfach einen Punkt 
(bzw. ein Komma) in unserer binä- 
ren Zahl. Links des Punktes steigen 
die Stellenwerte wie gewohnt an, 


rechts davon sinken sie schrittwei- 


se und werden so immer kleiner. 
Da wir im Binärsystem arbeiten, 
zeigt die erste Stelle nach dem Kom- 
ma aber nicht den zehnten Teil ei- 
ner ganzen Zahl, sondern jeweils 
die Hälfte. Beispielsweise kommt 
rechts neben der 1 die % = 0,5, ge- 
folgt von der % = 0,25. Auch mit 
dem gedachten Punkt funktioniert 
unser Addierer weiterhin, es sind 


keine Anpassungen notwendig. 


Ein Problem ist allerdings die Ge- 
nauigkeit, denn wir können so nur 
manche Kommazahlen darstellen. 
Haben wir viele Stellen nach unse- 
rem „Trennpunkt“ so werden diese 
Kommazahlen genauer, aber die Lö- 


sung ist noch nicht optimal. 


FPU 

An diesem Punkt verlassen wir 
erstmals die ALU und wechseln zur 
FPU, die mit sogenannten Gleitkom- 
mazahlen arbeitet. Diese haben, wie 
es der Name bereits andeutet, den 
Trennpunkt nicht an einer festen 


Position. 


Stattdessen gibt es für Binärzahlen 
bestimmter Längen Standards, die 
die Aufteilung der Zahl angeben. 
Das erste Bit gibt weiterhin das Vor- 
zeichen an, dann folgen mehrere 
Bits, die die Position des Punktes 
angeben, und zuletzt noch die ei- 
gentliche Zahl. Dadurch kann man 
sehr flexibel große und kleine Zah- 
len darstellen, indem man einfach 
den Trennpunkt verschiebt. Auf die 
exakte Berechnung solcher Zah- 
len verzichten wir an dieser Stelle, 
Gleitkommazahlen von Hand zu ad- 
dieren, benötigt mehrere Schritte 


und wäre zu kompliziert. 


Single- und Double- 
Precision 

Wir müssen uns Gleitkommazahlen 
aber gar nicht näher ansehen, um 
zu verstehen, wieso es in CPUs und 
GPUs verschiedene Arten von ih- 


nen gibt: zumeist Single- und Doub- 


le-Precision, es existieren aber auch 


Half- und Quad-Precision. 


Für viele Anwendungen reichen 
Gleitkommazahlen mit 32 Bit Ge- 
samtlänge - Single-Precision - voll- 
kommen aus. Für möglichst genaue 
Ergebnisse, wie beispielsweise bei 
wissenschaftlichen Berechnungen, 
muss aber auf Double- (64 Bit) und 
Quad-Precision (128 Bit) gewech- 
selt werden. Im Umkehrschluss 
kann man die Genauigkeit mit der 
Verwendung von Half Precision (16 


Bit) auch reduzieren. 


Aus Sicht des Programmierers hat 
eine höhere Genauigkeit nur Vor- 
teile, sie beansprucht die Hardware 
aber deutlich stärker: Möchte man 
mit 64- statt mit 32-Bit-Gleitkomma- 
zahlen rechnen, so muss die Schal- 
tung eben doppelt so viele Ein- und 
Ausgänge haben und ist damit dop- 


pelt so komplex. 


Genauigkeit gegen 
Geschwindigkeit 

Aus diesem Grund haben Grafik- 
karten hauptsächlich Einheiten für 
Single-Precision-Berechnungen: 
Das ist der sinnvolle Mittelweg. 
Zwar gibt es auch Schaltungen, die 
sich kombinieren lassen, sodass 
zwei 32-Bit-Gleitkommaeinheiten 
eine 64-Bit-Zahl bearbeiten können, 
doch sind diese im Vergleich zu spe- 
zialisierten Einheiten aufwendiger. 
Sie benötigen mehr Bauteile und 


mehr Strom. 


Rundungsfehler 

Bei der Weiterverarbeitung von 
Gleitkommazahlen sollte man stets 
im Hinterkopf behalten, dass eine 
solche Zahl lediglich eine mehr 
oder minder genaue Rundung dar- 
stellt. Je geringer dabei die Anzahl 
an Bits, die für die Mantisse zu Ver- 
fügung stehen, desto ungenauer die 
Rundung. Ein Beispiel: Nehmen wir 
die Berechnung 10 geteilt durch 3. 


Dabei kommt 3,3 Periode heraus. 


Mit nur einer Nachkommastelle er- 
hält man das Ergebnis 3,3. Multipli- 
ziert man dieses Ergebnis mit 1.000, 
kommt man auf 3.300 - was falsch 
ist! In Wahrheit ist das Ergebnis 
3.333,3 Periode. 


Designfragen 

Die beschriebenen Einheiten zum 
Verrechnen binärer Zahlen sind 
nur ein kleiner Teil des Rechenwer- 
kes in Prozessoren. Es werden noch 
viele weitere Bestandteile benötigt: 
Ein Prozessor muss auch Zahlen 
vergleichen und Programmdaten la- 
den können, nur dann ist er imstan- 


de, Programme auszuführen. 


Dabei müssen die Ingenieure in 
der Chipentwicklung immer Kom- 
promisse schließen - auch heute 
noch. Man kann wenige Einheiten 
verbauen, was kostengünstig, aber 
dafür langsam ist, oder man verbaut 
komplexe Schaltungen, die Aufga- 
ben auf einmal abarbeiten können. 
Ähnliches gilt für spezialisierte Ein- 
heiten, die schnell sind, aber selten 
genutzt werden. Ist da eine häufiger 
genutzte, aber langsamere Einheit 
die bessere Wahl? Das muss wohl 
für jede CPU neu entschieden wer- 


den. 


Prozessor 


Zu Zeiten der 386er-Generation war es üblich, Co-Prozessoren nachzurüs- 
ten. Dafür gab es eigens einen Sockel auf dem Mainboard. Mit dem 486 be- 


gann später die in die CPU. 


Wie eine Gleitkommazahl 
zusammengesetzt ist 


Eine Gleitkommazahl besteht grundsätzlich aus drei Elementen: der Mantisse, der Basis und einem Exponenten. 
Die Zahl 17,5 dargestellt als Gleitkommazahl würde man 1,75 mal 10 hoch 1 schreiben. Um eine solche Zahl in 
ein 32 Bit breites Register zu quetschen, muss man zuerst einmal definieren, welche Stellen wofür verwendet 
werden sollen. Gemäß Spezifikation IEEE 754 für Float-Zahlen mit einfacher Genauigkeit wird dabei ein Bit für 
das Vorzeichen verwendet (eine Gleitkommazahl kann ja auch negativ sein), 8 Bit für den Exponenten und der 
Rest für die Nachkommastellen (Mantisse). 


Bit 


31 23 22 


16 15 
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Prozessor 


So funktionieren Register 


und Hli 


-Flops 


Wie ein Flip-Flop arbeitet 


Das Flip-Flop stellt die einfachste Form eines Speichers dar und kann 


ein Bit so lange speichern, wie Strom anliegt (sogenannter flüchtiger 


Speicher). 
Dä 
i R S Q 
0 0 1 
0 1 1 
1 0 0 
& o 1 1 0 
So Q 


Flip-Flop-Typen 


Es gibt nicht den einen Flip-Flop-Speicher; stattdessen wurden im 
Laufe der Zeit viele verschiedene Typen entwickelt, die alle für unter- 
schiedliche Anforderungen optimiert sind. In Prozessoren kommen 
meist flankengesteuerte Flip-Flops zum Einsatz; diese behalten ihre 
Information auch dann, wenn sich das Eingangssignal ändert. 


Flip-Flops 


Nicht taktgesteuerte 
Flip-Flops 


Taktgesteuerte 
Flip-Flops 


Taktzustandsgesteuerte 
Flip-Flops 


Taktflankengesteuerte 


E 


ip-Flops 


Flip-Flops 


Einflankengesteuerte 


Zweiflankengesteuerte 
Flip-Flops 
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eben den Gattern gibt es 
weitere aus Transistoren auf- 
gebaute Schaltungen, die für den 
Betrieb eines Rechenwerks wichtig 


sind. 


Flip-Flops 

An vorderster Stelle steht das so- 
genannte Flip-Flop, welches einen 
Zustand (1 oder 0) über einen län- 
geren Zeitraum speichern kann. In 
der einfachsten Ausführung, einem 
ungetakteten RS-Flip-Flop, werden 
zwei NAND-Gatter (engl. für „Nicht- 
Und‘“-Gatter) kombiniert, die zwei 
Eingänge R und S schalten zwei Aus- 
gänge Q und -Q (siehe Grafik links). 


Register 

Aus Flip-Flops bestehen auch die 
prozessorinternen Speicher, die so- 
genannten Register. Diese beseiti- 
gen einen der vielen Flaschenhälse 
in der ursprünglichen Von-Neu- 
mann-Architektur. Register sind 
schnelle Zwischenspeicher direkt 
im Kern des Prozessors. Damit stellt 
der Prozessor letztlich seine eigent- 
lichen Berechnungen an. So müssen 
die Daten nicht im langsamen Ar- 
beitsspeicher miteinander verrech- 


net werden. 


Registersätze 

Ein klassischer x86-PC-Prozessor 
verfügt über 14 Register: vier bzw. 
acht Universalregister (GPR, General 
Purpose Register, dazu gleich mehr) 
sowie zehn spezialisierte Register, in 
denen Zahlen zur Berechnung abge- 
legt werden oder Zeiger auf die Stel- 
le des Programmcodes gesetzt wer- 
den können, an der sich der Rechner 
gerade im Programmablauf befin- 


det. Ein Prozessor kann Operationen 


auf Länge der Register durchführen. 
Das bedeutet, dass ein 32-Bit-Prozes- 
sor Operationen mit 32-Bit-Zahlen 
durchführen kann, also mit Zahlen, 
die 32 Nullen oder Einsen enthalten 
können. Jeder Operand bei mathe- 
matischen Operationen liegt also 
im Bereich von 0 bis 4.294.967.295 
CG 2 hoch 32 Möglichkeiten). Die 
Größe eines Operanden, das heißt 
die Anzahl der Binärstellen, die in 
den Registern verarbeitet werden 
kann, wird auch als Wortlänge oder 


Wortbreite bezeichnet. 


Arbeiten mit Registern 

Der normale Anwendungsprogram- 
mierer, der eine Programmierhoch- 
sprache wie C++, Visual Basic oder 
Java beherrscht, kommt normaler- 
weise mit Registern nie in Berüh- 
rung. Er programmiert mit einiger- 
maßen verständlichen Prozeduren, 
Funktionen, Klassen und Bibliothe- 
ken. Anders sieht die Sache aller- 
dings auf Maschinensprache-Ebene 
aus. Hier können die Register eines 
Prozessors unmittelbar beschrie- 
ben, ausgelesen und miteinander 
verarbeitet werden. Im Endeffekt 
werden natürlich auch die Quell- 
codes von Hochsprachen in Maschi- 
nensprache übersetzt. Allerdings 
übernimmt diese Arbeit der Com- 
piler, während der Assembler-Pro- 
grammierer diese Abstraktion nicht 


zur Verfügung hat. 


Doch egal ob Hochsprachen- oder 
die Aufgabe 


übernehmen, die vier Register AX, 


Assembler-Compiler 


BX, CX sowie DX können in einem 
8086-Prozessor, dem Urkeim aller ak- 
tuellen PC-Prozessoren, für universel- 
le Operationen verwendet werden. 
Als Folge dessen müssen alle Nach- 
folger dieses Mikroprozessors diese 
Register besitzen und deren Verwen- 


dung identisch handhaben. 


16-Bitter im 8-Bit-Pelz 
Nun wäre selbst der einfachste 


x86-Prozessor in seiner Leistung 


extrem begrenzt gewesen, hätte er 
nur mit 8-bittigen Zahlen arbeiten 
können - schon bei Werten größer 
als 256 (2°) wären dramatische Leis- 
tungseinbußen bei der Berechnung 


die Folge gewesen. 


Die CPU-Architekten haben den 
Ur-Prozessoren daher von Anfang 
an 16 Bit breite Register mitgege- 
ben, die Register AX, BX, CX und 
DX sind also „eigentlich“ nicht vier, 
sondern acht Register zu jeweils 
acht Bit. Tatsächlich lassen sich 
diese einzeln ansprechen und über- 
nehmen bei 16-Bit-Operationen un- 
terschiedliche Aufgaben: Der eine 
Teil speichert die höherwertigen 
Bits („High“, AH), der andere die 


niederwertigen Stellen („Low“, AL). 


Spezialregister 

In der Übersicht auf der rechten 
Seite oben kann man die Funktions- 
teilung sehr gut erkennen, ebenso 
wie die übrigen der insgesamt 14 
Register. Diese „übrigen“ sind Spe- 
zialregister und nur für bestimmte 
Zwecke vorgesehen. Sie dienen dem 
internen Programmablauf und sind 
ebenfalls 16 Bit breit. Bis auf eine 
Ausnahme können diese aber nicht 
in zwei Teile untergliedert bzw. se- 
parat angesprochen werden. Die 
Spezialregister beschreiben wir in 
den folgenden Abschnitten ausführ- 
lich. 


Daten- und 
Arithmetikregister 

Neben den Registern AX, BX, CX 
und DX sind vier weitere für den 
Programmablauf entscheidend: die- 
se Zellen werden als SP/BP und SI/ 
DI bezeichnet. 


Die Register SP und BP verwalten 
„Stack“ 
„Stack“ = Stapel oder Speicher). 


den sogenannten (engl. 
Der Stack dient unter anderem 
dazu, Rücksprungadressen beim 
Aufruf von Unterprogrammen zu 


speichern, damit der Prozessor 


nach dem Abarbeiten des Unter- 
programms seine Arbeit im über- 
geordneten Programm fortsetzen 
kann. Der Stack arbeitet nach dem 
LIFO-Prinzip (last In First Out), 
eben wie ein echter Stapel. Was 
man zuletzt oben aufgelegt hat, 
muss man auch zuerst wieder ent- 
fernen (das „Herausziehen“ eines 
Wertes ist nicht vorgesehen). In 
das 16-Bit-Register SP würde ja nur 
eine einzelne Zahl passen, noch 
dazu eine begrenzte OI = 65.536); 
folglich speichert der Prozessor in 
diesem Register lediglich eine Spei- 
cheradresse, und zwar jene, an der 
der jüngste Stapelwert zu finden ist 
- eben der, der zuletzt „aufgelegt“ 


wurde. 


Der Base Pointer dient dazu, einen 
bestimmten Platz im Stapel zu spei- 
chern - ebenfalls in Form einer Spei- 
cheradresse. Für die Programmierer 
unter den Lesern: Über diese Hin- 
tertür lassen sich Funktionen relativ 
komfortabel realisieren: Beim Auf- 
ruf einer Funktion wird die Stapel- 
adresse im Base Pointer gesichert, 
beim Verlassen von dort wieder zu- 


rück auf den Stapel gelegt. 


SIund DI steht für „Source Index“ so- 
wie „Destination Index“, also Quell- 
und Zielregister. Hier geht es vor 
allem um Operationen, die Zeichen- 
ketten verarbeiten - zum Beispiel, 
Suchbgeriff innerhalb 


eines Textes gefunden werden soll. 


wenn ein 


Das Register SI speichert in einem 
solchen Fall die Adresse, an welcher 
der zu durchsuchende Speicherbe- 
reich beginnt, DI analog dazu die 


entsprechende End-Adresse. 


Programmzähler/ 
Befehlszähler 

Der Programmzähler („Instruction 
Pointer“, IP) enthält die Speicherad- 
dresse des nächsten einzulesenden 
Programmteils. Bei einem sequen- 
ziellen Abarbeiten des Programm- 


codes zählt dieser einfach hoch. 


Statusregister 
(Flag-Register) 

Nach manchen Operationen kann es 
vorkommen, dass zusätzliche Infor- 
mationen für die nachfolgende Ope- 
ration bereitgestellt werden müssen. 
Dies geschieht, indem verschiede- 
ne Bits im Statusregister, die Sta- 
tus-Flags, gesetzt werden (im Sche- 
ma links als „FLAGS“ bezeichnet). 
Zu den Flags gehört beispiels- 
weise das Zero-Flag. Dieses wird 
immer dann gesetzt, wenn das 
letzte Ergebnis gleich null ist. 
Hierdurch lassen sich mit geringem 
Aufwand beispielsweise Schleifenbe- 
dingungen realisieren. Ein weiteres 
Flag ist das Carry-Flag, welches für 
den Übertrag benötigt wird, wie wir 
im vorhergehenden Abschnitt gese- 
hen haben. Dies muss bei möglichen 
Nachfolgeoperationen in der Regel 


berücksichtigt werden. 


Das Overflow-Flag zeigt beim Rech- 
nen mit vorzeichenbehafteten Wer- 
ten an, ob es einen Übertrag in das 
Vorzeichenbit gab, wodurch die 
Zahl verfälscht würde. Ob eine Zahl 


Prozessor 


vorzeichenbehaftet ist, zeigt das Si- 
gn-Flag an. Darüber hinaus gibt es 
noch viele andere Flags, die häufig 
für spezielle Anwendungszwecke 


eingesetzt werden. 


Insgesamt beherbergt dieses Regis- 
ter 12 Flags; da es wie dies anderen 
Register 16 Bit breit ist, bleiben vier 
Bits (12-15) ungenutzt, also „leer“. 


Adressregister 

Es bleiben noch vier Register übrig, 
im Schaubild auf der vorhergehen- 
den Seite ganz unten zu finden. Die- 
se Register sind im Grunde das Er- 
gebnis der Verrenkungen, die Intel 
machen musste, um in den Anfangs- 
tagen der x86-Ära mehr Speicher 


nutzen zu können. 


Weil mit 16 Bit breiten Registern ma- 
ximal 2'° Bytes (ca. 64 KiByte) an- 
gesprochen werden können, nutzen 
die CPU-Entwickler eine andere Me- 
thode, um gesuchte Bytes im RAM 
zu finden. Jede Speicheradresse be- 
stand einfach aus zwei 16-Bit-Wer- 
ten; der eine bezeichnete ein Spei- 


chersegment, der anderen einen 


Registersatz einer x86-CPU 


Diese Register besitzt ein klassischer 8086-16-Bit-Prozessor. 
Bei 32-Bit-CPUs heißen die verlängerten Register EAX, EBX, usw. 


LE für „Extended‘“) 


AX AH AL Accumulator Register 
BX BH BL Base Register 
CX CH CL Count Register 
DX DH DL Data Register 
SP Stack Pointer 
BP Base Pointer 
SI Source Index 
DI Destination Index 
IP Instruction Pointer 
FLAGS FLAGS Status Flags 
cs Code Segment 
DS Data Segment 
ss Stack Segment 
ES Extra Segment 
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Prozessor 


Speicherorganisation 


Der Hauptspeicher ist zeilenweise organisiert. Eine Zeile bildet ein 
Speicherwort und hat eine feste Speicheradresse. Jede Speicherzelle 


ist ein Bit groß. 


Speicherworte 


Speicherzelle 


Speicherkapazität 


Struktur eines 


Maschinenbefehls 


Programme liegen dem Prozessor in Form von Maschinencode im 
Binärzahlenformat vor. Da ein solcher Code aber äußerst kryptisch 

und praktisch nicht lesbar ist, erfolgt die Programmerstellung häufig 

in Form einer Hochsprache, beispielsweise in C. Bei hardwarenaher 
Programmierung kann der Code auch direkt in prozessorspezifischer 
Assemblersprache geschrieben werden. Hierbei handelt es sich quasi 
um Maschinensprache, die allerdings mit anschaulichen Kürzeln, soge- 
nannten Mnemonics, lesbar gemacht wird (siehe Seite 11). Der fertige 
Code wird anschließend in Binär-Maschinensprache übersetzt. 


«— Speicherbreite — 


«————— Speichertiefe — ——— 


Ein Maschinenbefehl besteht aus mehreren Teilen. Den ersten bildet 
der OpCode, der angibt, um welchen Befehl es sich handelt, beispiels- 
weise eine Addition, das Laden eines Wertes in ein Register oder einen 
Sprungbefehl. Die Gesamtheit der für den Prozessor verfügbaren Be- 
fehle bildet den Befehlssatz. Auf den OpCode folgen Angaben zu den 
Operanden und deren Adressierungsart. Je nach Befehl wird zudem 
noch angegeben, in welches Register bzw. an welche Speicheradresse 
das Ergebnis gespeichert werden soll. 


load R1,A So könnte die Operation C = A + B in Pseudo-Assembler- 
load R2,B code aussehen. Die Werte A und B werden zunächst in 
add R3,R1,R2 separate Register geladen, dann addiert und in einem 
store C,R3 dritten Register gespeichert. Danach wird der Register- 
wert im Wert © gespeichert. 
OpCode Zielregister Quellregister 1 | Quellregister 2 
add R3 R1 R2 
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Offset (dt.: „Versatz“). Grob veran- 
schaulicht, könnte man Segmente 
mit Straßennamen gleichsetzen und 
den Offset mit einer Hausnummer. 
Der Offset gibt dabei immer an, wie 
viel „weiter“ man gehen muss, um 


zur gesuchten Adresse zu gelangen. 


Segmente und Offset 

Wir wollen nicht zu weit in die Tie- 
fe gehen, wichtig ist vor allem, dass 
man für diese Teilung in Segment 
und Offset 


brauchte, welche die Adresse für das 


zusätzliche Register 


jeweilige Segment enthalten muss- 
ten. Das Register CS speichert diese 
Zahl für den gerade aktuellen Code 
(„Code Segment“), das Register DS 
macht das gleiche für das jeweils 
aktuelle Segment des Datenbereichs 
(„Data Segment“). Für den Offset 
gibt es kein eigenes Register, denn 
dieser Wert wird in die „normalen“ 


Register geladen. 


„SS“ und „ES“ schließlich speichern 
ebenfalls Segment-Adressen: SS jene, 
die für Adressen auf dem Stack be- 
nötigt werden („Stack Segment“), ES 
enthält das Segment einer Speicher- 
adresse, die für Stringoperationen 
genutzt wird („Extra Segment“) - 


was diese beschleunigt. 


Von 16 zu 32 Bit 

Das Bearbeiten größerer Zahlen 
mit16-Bit breiten Registern ist ziem- 
lich umständlich, da die Zahlen dann 
in zwei oder mehrere Teile aufge- 
spaltet werden müssen. Schnell wur- 
den 16-Bit-Prozessoren daher von 
32-Bit-CPUs abgelöst. Intels erster 
32-Bit-x86-Prozessor kam mit dem 
386 schon 1985 auf den Markt. 


Doch auch diese Architekturvarian- 
te war noch lange nicht perfekt. Ein 
32-Bit-Register kann auch nur eine 
beschränkte Anzahl an Adressen im 
Arbeitsspeicher aufnehmen; für ein 
32-Bit-System bedeutet das: Bei 4 
GByte RAM ist Schluss. Mehr Spei- 


cher kann ein 32-Bit-Prozessor nicht 


adressieren (zumindest nicht auf 


herkömmlichem Wege). 


Von 32 zu 64 Bit 

Die Einführung von 64-Bit-Prozes- 
soren, also von Prozessoren mit 64 
Bit breiten Registern, entschärfte 
das Problem, indem hier rein rech- 
nerisch 2 hoch 64 Byte RAM ad- 
ressiert werden können, also satte 
16.777.216 Terabyte. Eine schier 
unvorstellbar große Menge. Aus 
diesem Grund haben die aktuellen 
64-Bit-x86-Prozessoren eine freiwil- 
lige Selbstbeschränkung: Nur 40 Bit 
stehen für die Adressierung des Ar- 
beitsspeichers zur Verfügung. Das 
sind 1 TByte RAM, was für eine Wei- 


le genügen sollte. 


Wichtig am Ende unseres kleinen 
Registerausfluges ist noch ein Hin- 
weis: Alle diese Angaben gelten 
nur für Intels x86-Architektur (und 
kompatible); andere Architekturen 
können gänzlich anders aufgebaut 
sein und mit unterschiedlichen Re- 


gistern arbeiten. 


FPU-Einheit 

ALUs und Register sind elementare 
Bauteile eines x86-PCs. Wie wir im 
Abschnitt über das binäre Rechnen 
gesehen haben, sind es aber vor al- 
lem die Gleitkommaoperationen, 
die aufwendig sind und viel Zeit be- 
nötigen. Die logische Konsequenz 
in der CPU-Entwicklung war eine 
eigene Gleitkommaeinheit, englisch: 


„Floating-Point-Unit“ oder FPU. 


Aus einem modernen PC-Prozessor 
ist dieses Bauteil nicht mehr weg- 
zudenken. Elementar für eine x86- 
CPU ist es allerdings nicht. Weder 
die ersten 8086- und 8088-Prozes- 
soren besaßen eine FPU, noch die 
80286- 
Erst der 80486-Prozessor bot eine 


und 80386-Prozessoren. 


FPU-Einheit, die sogar schon direkt 
im Prozessorkern integriert war - es 
gab allerdings noch eine Zeitlang Va- 


rianten ohne FPU. 


m eine einzige Funktion aus- 

zuführen, benötigte der Urva- 
ter der heutigen Prozessoren, der 
Intel 8086, unzählige Takte abhän- 
gig von der Art der Instruktion. Der 
Fachbegriff dafür lautet CPI (Clock- 
cycles per Instruction). Dieser Wert 
beschreibt die Anzahl der Takte, die 
benötigt werden, um eine Instrukti- 


on auszuführen. 


Dem grundsätzlichen Problem der 
langwierigen Befehlsverarbeitung 
versucht man mit dem Fließband- 
prinzip zu begegnen; wie einst 
bei Henry Ford erwies es sich als 
zweckmäßig, die Verarbeitung ei- 
ner Instruktion in mehrere, etwa 
gleich große Einzelschritte zu zerle- 
gen (detaillierte Erklärung im Kas- 


ten rechts). 


Pipelining 

Als erster Mikroprozessor mit ei- 
ner (einstufigen) Pipeline gilt der 
MOS Technology 6502 von 1975. 
Aber auch in der x86-Welt war be- 
reits der allererste IBM-kompatible 
Prozessor, der Intel 8086 im Jahre 
1978, mit einer primitiven Form 
des Pipelinings ausgestattet. Seine 
Bus-Interface-Unit schickte die Ab- 
folge an Instruktionen durch eine 
6-Byte-Prefetch-Queue an die Exe- 
cution-Einheit, sodass die Stufen 
Fetch und Execution parallel ausge- 


führt werden konnten. 


Pionier 486 

Als Vater des echten Pipelinings 
auf den x86ern jedoch gilt der 
Intel 80486, der eine dreistufige 
Locate-Fetch-Execution-Pipeline 
besaß und im Jahre 1989 eingeführt 
wurde. Damals, als die Luft bei 
der CPU-Entwicklung noch nicht 
so dünn war wie heute, hatte die 
Einführung einer neuen Prozes- 
sor-Generation aufgrund der neuen 
Features, zu denen auch Pipelining 
gehörte, tatsächlich einen deutli- 
chen Performance-Schub bei glei- 


cher Taktfrequenz zur Folge. Heute 


Prozessor 


So funktionieren 
Pipelines und Co) 


können die CPU-Designer schon 
froh sein, wenn eine neue Genera- 
tion 20 bis 30 Prozent weniger CPI 
benötigt als der Vorgänger. Das liegt 
mitunter natürlich daran, dass sich 
dieses Prinzip nicht beliebig erwei- 


tern lässt. 


Intels Pentium 

Der Intel Pentium bekam zum ers- 
ten Mal zwei Pipelines. Damit ist 
theoretisch ein CPI-Wert von unter 
1 möglich. Ein weiterer Meilenstein 
in Sachen Pipelines war der AMD 
Athlon, der satte drei Gleitkom- 
ma- und drei ALU-Pipelines besaß, 
insgesamt also sechs parallele Pi- 
pelines, die zwar nicht alle gleich- 
zeitig bedient werden konnten, da 
nicht alle drei FPU-Pipelines mit al- 
len Funktionen ausgestattet waren 
und der Dekoder nur drei parallele 
Ströme verarbeiten konnte - aber 


immerhin. 


Zwei Jahre später brachte Intel den 
Pentium 4 auf den Markt, der in Sa- 
chen Pipelines ebenfalls einzigartig 
war, wenn auch auf eine andere 
Art und Weise. Mit bis zu 31 Pipe- 
linestufen hatte die Netburst-Ar- 
chitektur des Pentium 4 die längs- 
te Pipeline eines x86-Prozessors. 
Die Absicht dahinter war klar: Je 
mehr Pipelinestufen, desto simpler 
die einzelnen Teilaufgaben, desto 
schneller wurden die Stages damit 
fertig und desto höher konnte die 
CPU getaktet werden. 


Doch so einfach gestaltete es sich 
nicht und das einfache Verlängern 
der Pipelining bei gleichzeitig im- 
mer weiter steigendem Takt ent- 


puppte sich als Irrweg. 


Wie eine Pipeline funktioniert 


Der ständig wiederkehrende Funktionsablauf in einem Prozessor be- 
steht im Wesentlichen aus den Stufen IF (Instruction Fetch), ID (Inst- 
ruction Decoding), EX (Execution) und WB (Write Back), wobei sich der 
der Ablaufplan im Bereich EX je nach Darstellung um einen MEM- oder 
Fetch-Operands-Zyklus erweitern lässt - schließlich müssen nicht nur 
die Instruktionen aus dem Speicher geladen werden, sondern auch 
noch die zu verarbeitenden Daten. Gehen wir also in unserem Beispiel 
einmal von der Reihenfolge IF, ID, EX, MEM und WB aus. Das sind fünf 
verschiedene Vorgänge, die ein Prozessor nacheinander ausführen 
muss, um einen einzigen Befehl zu verarbeiten - grundsätzlich spiegeln 
diese auch die fünf Phasen der Befehlsverarbeitung eines Von-Neu- 
mann-Rechners wider. 


Leerlauf 

Ein solcher vereinfachter Prozessor hätte einen CPI-Wert von fünf. Für 
jeden Befehl benötigt die CPU also selbst im Idealfall fünf ganze Takte, 
wobei dieser Idealfall höchst selten eintritt. Schließlich dauert bereits 
ein Zugriff auf den im Verhältnis deutlich langsameren Arbeitsspeicher 
etliche Dutzend bis hundert Prozessortakte. In dieser Zeit ist unser 
Prozessor zum Warten verdammt; eine Zeit, in der die CPU nichts wei- 
ter tun kann, als Däumchen zu drehen, bis die Infrastruktur die Daten 
aus dem RAM gelesen hat. 


Fließbandprinzip 

Statt alle Einheiten an einer einzelnen Operation arbeiten zu lassen, 
unterteilen aktuelle Prozessoren die Aufgaben in möglichst kleine Teil- 
bereiche - genau wie einst Henry Ford bei der Produktion von Autos. 
Der Trick des Pipelinings ist es nun, die Schritte IF, ID, EX, MEM und 
WB genau wie am Fließband zwar nach wie vor hintereinander auszu- 
führen, jedoch den nächsten IF-Arbeitsschritt bereits dann zu begin- 
nen, wenn Stufe 2 der Pipeline noch mit ID beschäftigt ist. So wird die 
Pipeline bei jedem Takt mit einer neuen Instruktion gefüttert. 


Effizientere Verarbeitung 

Zwar dauert es genau wie am Fließband nach wie vor genauso viele 
Taktzyklen wie ohne Pipeline, bis die erste Instruktion abgearbeitet 
ist. Anschließend jedoch wird der Prozessor nach jedem Takt wieder 
mit einer Instruktion fertig, während der Non-Pipelined-Prozessor hier 
erst wieder mit seiner nächsten Instruktion beginnen würde. Durch die 
CPU-Pipeline haben wir es also geschafft, den CPI-Wert unseres Bei- 
spielprozessors von bisher bestenfalls 5 auf bis zu 1 zu verringern. 


IF ID | EX | MEM 
i IF ID | EN WB 
Y 
t IF ID MEM | WB 
— 
IF EX | MEM | WB 
ID | EX |MEM | WB 


Die fünfstufige Pipeline unserer Beispiel-CPU: Ab dem fünften Takt 
wird die CPU mit jedem Zyklus mit einer Instruktion fertig. 
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Prozessor 


Bild: Intel 


Intels Pentium (1) brachte erstmals zwei Pipelines; eine davon konnte aber 
nur einfache Aufgaben berechnen (V-Pipe), während die andere universell 
einsetzbar war (U-Pipe). 


Spekulative Ausführung 


Speculative Execution: Wird ein Sprung zweimal hintereinander ausge- 
führt, ändert der Predictor seine Vorhersage von Nojump auf Jump. 


Quelle: www.kreissl.info 


Beim K6 kombinierte 
AMD den Befehls- 
satz der fünften 
CPU-Generation mit 
der Out-of-Order- 
Fähigkeit der sech- 
sten Generation. 
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Pipeline-Probleme 

Ein Prozessor ist kein streng se- 
quenzieller Automat, bei dem alle 
Vorgänge vorhersehbar sind. Ein 
Programm ist vor allem eine An- 
sammlung von unzähligen Entschei- 
dungsfindungen. Die Wenn-dann- 
Struktur eines Programms steht 
jedoch in direkter Konkurrenz zu 
einer möglichst tiefen Pipeline. Das 
ist immer dann kritisch, wenn bei- 
spielsweise die dritte Instruktion 
vom Ergebnis der ersten Instrukti- 
on abhängt. Bereits in unserer äu- 
Berst kurzen Beispiel-CPU mit fünf 
Pipeline-Stufen ist das ein Problem, 
denn wenn die Instruktion Nr. 3 in 
die ID-Stufe geladen wird, ist die 
Instruktion Nr. 1 noch nicht fertig 


berechnet. 


Es gibt nun zwei Möglichkeiten, 
eine CPU in so einem Fall verfahren 
zu lassen: Entweder wartet die CPU 
mit dem Start der dritten Instruk- 
tion so lange, bis das Ergebnis der 
ersten Instruktion feststeht. Das ist 
die einfachste Art der Implementie- 
rung, aber auch die langsamste. Im 
schlimmsten Fall arbeitet der Pro- 
zessor wie ein Prozessor ohne Pipe- 
line, weil er ständig auf das Ergeb- 


nis einer vorherigen Stufe wartet. 


Spekulative 

Ausführung 

Die andere Möglichkeit der Im- 
plementierung lautet, die Pipeline 
einfach auf Verdacht arbeiten zu 
lassen. Wenn die Instruktion 1 zwei 
Takte später das Ergebnis hat, das 
Instruktion 3 „angenommen“ hat, 
bleibt die heile Welt des Pipelinings 
erhalten. 


Übel wird es allerdings, wenn sich 
die CPU „verschätzt“ hat und die In- 
struktion 3 unter falschen Voraus- 
setzungen auf die Reise geschickt 
hat. Dann muss die komplette Pipe- 
line geleert („Flush“) werden, alle 
in der Pipeline befindlichen Stati- 


onen müssen ihre Arbeit auf den 


Müll werfen. Wenn das permanent 
geschieht, kann eine Pipelined-CPU 
sogar langsamer arbeiten als eine 
Non-Pipelined-CPU, da das Flushen 
einer Pipeline selbst bereits etliche 


Takte für sich in Anspruch nimmt. 


Branch-Prediction 

Trotzdem arbeiten fast alle Pipe- 
lined-CPUs mit 
nungen auf Verdacht. Allerdings 
haben die CPU-Entwickler ihren 
Babys ein Feature mit auf den Weg 


diesen Berech- 


gegeben, das dafür sorgt, dass ein 
Pipeline-Flush so selten wie mög- 
lich nötig ist. Dieses Feature nennt 
sich Branch-Prediction-Unit, zu 
Deutsch: Sprungvorhersage. Eine 
Sprungvorhersage (eigentlich ist 
dies eine falsche Übersetzung, 
„branch prediction“ lautet korrekt 
übersetzt 
ge 
ge“) versucht zu erraten, welche 


„Abzweigungsvorhersa- 


D 


oder „Verzweigungsvorhersa- 


Richtung der Programmfluss bei 
einem bedingten Sprung einlegen 
wird. Hierbei werden die verschie- 
denen Verzweigungsmöglichkeiten 
des Programmflusses genauestens 
geprüft und nach Wahrscheinlich- 
keiten gewichtet. Die Verzweigung 
mit der höchsten Wahrscheinlich- 
keit wird anschließend als weiterer 
Verlauf des Programms definiert 
und die Pipeline mit den entspre- 


chenden Instruktionen gefüllt. 


Doch wie das Wort „Wahrscheinlich- 
keit“ schon zeigt, gibt es keine Ga- 
rantie, dass der Programmfluss die 
vorhergesagte Richtung auch wirk- 
lich einschlägt. Somit wird es im- 
mer den Fall geben, dass aufgrund 
eines Versagens der Sprungvorher- 
sage-Logik die Pipeline ausgespült 
und neu gefüllt werden muss. Die 
perfekte Sprungvorhersage mit 99 
Prozent Treffsicherheit (oder gar 
mehr) hat bisher noch niemand 
konstruieren können, Informatiker 
und Ingenieure rund um den Glo- 
bus beschäftigen sich mit dem Mo- 
dell der „Sprungvorhersage“. 


Branch Target Buffer 

Besser als eine bloße Sprungvorher- 
sage ist eine Sprungzielvorhersage. 
Sobald man in der ID-Stage erkennt, 
dass es sich um einen Sprung han- 
delt, kann man prüfen, ob dieser 
Sprung schon einmal stattfand, und 
gegebenenfalls sein Sprungziel aus 
einem Puffer holen. Somit kann 
man den Programmzähler sofort 
auf dieses Sprungziel stellen und 
die dortigen Instruktionen in die Pi- 
peline laden. Dies geschieht in der 
Regel mithilfe eines Branch Target 
Buffers (BTB) oder eines Branch 
Target Adress Cache. Diese Tabelle 
enthält Vorhersageinformationen, 


Zieladressen und Tags. 


Superskalarität 

Mit einem strikt nach von Neumann 
arbeitenden Prozessor würde man 
niemals eine IPC > 1 erreichen 
können (bzw. CPI < 1). Die Tatsa- 
che, dass heutige Prozessoren eine 
IPC von deutlich mehr als 1 haben, 
beruht auf der Tatsache, dass die 
Entwickler die von-Neumann-Ar- 
chitektur nach eigenen Vorstellung 
etwas verbogen haben und den Pro- 
zessoren, beginnend mit dem Intel 
Pentium (586), die superskalare Ar- 


beitsweise eingeimpft haben. 


Dabei geht es nicht ausschließlich 
um das Pipelining. Eine superska- 
lare CPU unterscheidet sich von 
einem nicht-superskalaren Pro- 
zessor hauptsächlich im Leitwerk. 
So teilt das Leitwerk einer Reche- 
neinheit nicht mehr lediglich eine 
Instruktion pro Takt zu, sondern 
gleich mehrere unterschiedliche 
Instruktionen für mehrere unter- 
schiedliche Recheneinheiten. Es 
gibt damit im Grunde nicht nur 
eine Pipeline, sondern mehrere 
parallele. Der Prozessor ist damit 
in der Lage, mehrere Instruktionen 
parallel abzuarbeiten, solange diese 
oder ihre Ergebnisse nicht vonein- 
ander abhängig sind. Somit kann 


eine zweifach superskalare CPU bei 


gleichem Takt im Idealfall doppelt 
so viele Instruktionen pro Sekunde 
abarbeiten wie ein serieller Pro- 
zessor. Um dies zu erreichen, muss 
beispielsweise der Dekoder mehr 
als nur eine Instruktion pro Taktzy- 
klus dekodieren können. Es müssen 
mehrere voneinander unabhän- 
gige Recheneinheiten vorhanden 
sein. Die erste Implementierung 
superskalarer Arbeitsweise fand in 
der fünften x86-Generation statt, 


im Intel 586 alias Pentium. 


Out-of-order-Execution 


Mit der Superskalaritätt wurde 
es noch wichtiger, die Rechen- 
einheiten optimal auszulasten. 
Zu diesem Zweck ersannen die 
Entwickler die „Out-of-Order Exe- 
cution“ (kurz: 000, zu Deutsch: 
„Ausführung außerhalb der Reihen- 
folge“). Sie bietet einen enormen 
Zuwachs an Geschwindigkeit, denn 
so können Instruktionen bereits 
ausgeführt werden, wenn sie noch 


gar nicht an der Reihe sind. 


Ein Beispiel: Nehmen wir an, dass 
eine Instruktion Daten aus dem 
Speicher einlesen muss. Das führt 
dazu, dass der Prozessor für mehre- 
re hundert bis tausend Taktzyklen 
auf die Daten warten muss. Gibt es 
jedoch in der Pipeline Instruktio- 
nen, die von der derzeit auf Daten 
aus dem Speicher wartenden Ins- 
truktion unbabhängig sind, kann 
der Prozessor die nötige Wartezeit 
mit der Ausführung dieser Instruk- 


tionen überbrücken. 


Out-of-Order Execution wurde in 
der x86-Welt erstmals mit dem Pen- 
tium Pro eingeführt. Dennoch gibt 
es auch heute noch CPUs, die zu- 
gunsten einer niedrigen Leistungs- 
aufnahme auf O0O verzichten - In- 
tels erste Atom-CPU ist ein Beispiel 
dafür. Ein OoO-Prozessor braucht 
zudem immer eine Register-Rena- 
ming-Einheit, mit der die originalen 


Register „simuliert“ werden. 


Prozessor 


Wie ein superskalarer 
Prozessor arbeitet 


Eine fünfstufige Pipeline mit zweifacher Superskalarität. Hier können 
zwei Befehle gleichzeitig ausgeführt werden. 


Pipelining und 
Out-of-Order-Execution 


Im unserem abgebildeten Beispiel laufen drei Befehle parallel; erschwe- 
rend kommt hinzu, dass die grüne Instruktion (addiere F1 und F3 und 
schreibe das Ergebnis in F4) vom Ergebnis der roten abhängig ist. Im 
oberen Teil der Grafik muss die grüne Instruktion warten, bis das Ergeb- 
nis der roten vorliegt. Es müssen daher zwei Wartezyklen (S, stall) ein- 
gelegt werden. Dies blockiert auch die blaue Operation. Dennoch sind 
alle drei Aufgaben bereits nach 9 Taktzyklen erledigt - ohne Pipelining 
hätten die drei Instruktionen 15 Taktzyklen benötigt. 


In der unteren Hälfte ist die gleiche Aufgabe auf einem Out-of-Or- 
der-Execution-fähigen Chip zu sehen. Hier wurde die ursprünglich dritte 
Instruktion (blau) vorgezogen. Sie kann nun ohne Wartezeit bearbeitet 
werden. Als Nebeneffekt ergibt sich, dass die grüne Instruktion nun nur 
noch einen Takt auf das Ergebnis der roten Instruktion warten muss. 


Taktzyklus 
1 2 


add F1,F2=>F3 
add F1, F3 => F4 
sub R1, R2 => R3 


Taktzyklus 
1 2 


Legende: 

IF (Instruction Fetch): Der nächste Befehl wird geholt. ID (Instruction Decode): Der Befehl 
wird dekodiert. EX (Execute): Der Befehl wird ausgeführt. M (Memory): Der Speicher wird 
adressiert. WB (Write Back): Das Ergebnis der Berechnung wird geschrieben. $ (Stall): 
Die Pipeline läuft leer. 
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Bild: AMD 


Bild: Intel 


Prozessor 


So funktionieren 


$ e SÉ i nn 


Cache kann man aufgrund der uniformen Struktur leicht auf dem Wafer oder 


entsprechenden Bildern („Die-Shots“) erkennen (hier: Ryzen). 


pentium®/ll MALAY 
RB80526P2933256 
LB154175-8137 QS83ES 


Mit dem Pentium Ill Coppermine und dem AMD K6-Ill konnte der L2-Cache 


im Chip untergebracht werden - dort ist er bis heute zentraler Bestandteil 
jeder CPU 
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Caches 


er klassische von-Neu- 
mann-Rechner besitzt kei- 
nen Cachespeicher, ja nicht 


einmal Register. Sämtliche Opera- 
tionen werden direkt aus dem 
Speicher heraus ausgeführt - und 


das dauert! 


Langsamer Speicher 

Verantwortlich dafür ist zum einen 
die Diskrepanz zwischen CPU- und 
Speichertakt. Während aktuelle Pro- 
zessoren mit 4 GHz Taktfrequenz 
und mehr arbeiten, bleibt selbst die 
Bandbreite schnellster DDR4-Spei- 
cher deutlich unter dem, was die 


CPU verarbeiten könnte. 


Damit könnte man noch leben. 
Doch noch schlimmer sind die 
miserablen Zugriffszeiten („Laten- 
zen“) von DRAM-Speicher: Von der 
Anforderung von Daten bis zur Lie- 
ferung vergehen je nach Plattform 
zwischen 150 und 500 Prozessortak- 
te! Im schlimmsten Fall (wenn 000 
oder andere Funktionen nicht grei- 
fen), kann der Prozessor in dieser 


Zeit nichts anderes tun als warten. 


Cache-Geschichte 
Dieser Missstand wurde bereits 
früh Schon 8088-Sys- 


teme Cache-Bausteine 


erkannt. 
besaßen 
aus SRAM-Speicher auf den Main- 
boards, um den Zugriff auf häufig 
verwendete Codestellen und Daten 
zu beschleunigen. 

Der Trick dabei: Daten, die bereits 
einmal aus dem Speicher geholt 
wurden, werden in einen Puffer 
geschrieben. Benötigt die CPU die- 
selben Teile wenig später noch ein- 
mal, was relativ häufig vorkommt, 


braucht sie nicht erneut darauf zu 


warten. Die Daten müssen dann 
nicht mehr aus dem RAM gelesen, 
sondern können relativ schnell aus 


dem Pufferspeicher bereitgestellt 


werden. 
Cache-Hierarchie 
Allerdings sind klassische 


Cache-Bausteine auf den Main- 
boards immer noch relativ lang- 
sam, arbeiten sie doch meist mit 
der Taktfrequenz der Infrastruktur, 
während die CPU meist 10 bis 20 
Mal so hoch taktet. Daher integrier- 
te Intel beim 80486 zum ersten Mal 
zusätzlichen Cache auch direkt in 
die CPU. Der gestufte Cache war er- 
funden. Beim 486er waren es meist 
2x 4 KiByte Puffer in der CPU als Le- 
vel-1-Cache sowie größerer (damals 
meist 256 kiByte), aber langsamerer 


Level-2-Cache auf dem Mainboard. 


Der Vorteil des integrierten Caches: 
Die Wege sind kürzer, die Latenz- 
zeiten sinken gewaltig, der Cache 
vollem CPU-Takt 
und die Anbindung kann brei- 


arbeitet mit 
ter ausgeführt werden, als es die 
Infrastruktur vorgibt. Mit stetig 
verbesserten Produktionstech- 
niken und verkleinerten Struk- 
turen konnte mit dem Pentium 
III Coppermine und AMD Koll 
später auch der L2-Cache direkt in 
die CPU integriert werden. Seit die- 
ser Zeit besitzt praktisch jede CPU 
einen On-Die-Level-1- und Level-2- 


Cache. 


L3- und L4-Cache 

Später kam dann noch eine weite- 
re Hierarchie hinzu: der L3-Cache. 
Einer der ersten bekannteren Desk- 
top-Prozessoren war der Pentium 4 
Extreme Edition mit Gallatin-Kern, 
der im Jahr 2003 erschien; dieser 
zielte auf leistungshungrige Anwen- 
der, vor allem Spieler. Seinen 512 
KiByte L2- standen zusätzlich 2 Mi- 
Byte L3-Cache zur Seite. Heute sind 
L3-Cachegrößen von 8 MiByte und 


mehr üblich. 


Eine Zeitlang, genauer gesagt von 
zirka 2013 bis 2017, gab es auch Pro- 
zessoren mit L4-Cache. Intels Bro- 
adwell-, Haswell- und Skylake-Ar- 
chitektur sahen hierfür allerdings 
kein SRAM (dazu gleich mehr), son- 
dern eDRAM (Embedded-DRAM) 
vor, das auf den Chip gepackt und 
sowohl von der Onchip-Grafikein- 
heit als auch von der CPU genutzt 
werden konnte. Zwar profitierten 
einige Programme wie 7-Zip oder 
Spiele wie Starcraft 2 enorm von 
dem On-Package-Speicher; langfris- 
tig durchsetzen konnte er sich bis 
heute aber nicht - L4-Cache ver- 
schwand gegen 2017 mit den letz- 


ten eDRAM-Prozessoren. 


SRAM-Speicher 

Implementiert wird Cache durch 
sogenanntes SRAM. Statisches RAM 
(engl. Static Random Access Me- 
mory) bezeichnet einen Typ von 
flüchtigen Speicherbausteinen. Im 
Gegensatz zu DRAMs müssen außer 
der Betriebsspannung keine Signale 
zum Auffrischen erzeugt werden, 
um die Daten zu erhalten. Eine 
SRAM-Speicherzelle besteht aus 
zwei Transistoren, die als Flipflop 
geschaltet sind, und weiteren 
Transistoren für die Steuerung des 
Schreib- und Lesevorgangs. In der 
Regel sind für eine Speicherzelle 


sechs CMOS-Transistoren nötig. 


Jede Speicherzelle bildet 1 Bit ab. 
SRAM hat sehr geringe Zugriffs- 
zeiten und ist damit als Cachespei- 
cher prädestiniert. Der Nachteil im 
Vergleich zu DRAMs ist der höhere 
Flächenbedarf auf dem Wafer bei 
gleicher Speicherkapazität und der 


damit vielfach höhere Preis. 


Cache-Arbeitsweisen 

Je nach Prozessor ist ein zweige- 
teilter Split-Cache oder ein ein- 
heitlicher Unified-Cache verbaut, 
der Daten und Befehle gemischt 
speichert. Die aktuellen CPUs von 
AMD und Intel verwenden Split- 


Caches für den L1- und Unified- 
Cache für den L2-/L3-Zwischenspei- 
cher. Aus Platzgründen kann der L1- 
Cache in der CPU nicht sehr groß 
sein. Je nach Philosophie des Pro- 
zessorherstellers bewegt er sich zwi- 
schen 32 und 128 kiByte pro Kern. 


Cache-Organisation 

Der Cache wird in Zeilen (Cache 
Lines) oder Sets eingeteilt. Erfolgt 
ein Lesezugriff auf einen Bereich 
im Arbeitsspeicher, dann füllt die 
CPU eine Cache-Zeile mit dem In- 
halt aus diesem Speicherblock. Es 
gibt verschiedene Organisationen 
von Caches. Der einfachste ist der 
Direct-mapped-Cache. Hier ist je- 
dem Set nur ein Cache-Eintrag 
zugeordnet. Der Nachteil des Di- 
rect-mapped-Caches ist, dass nur 
Speicherbereiche in der Größe des 
Caches gepuffert werden können. 
Wird auf Speicherbereiche außer- 
halb dieses Bereiches zugegriffen, 
ist der gesamte Inhalt des Eintrages 
wertlos und muss neu geladen wer- 


den. 


Assoziativer bzw. 
Mehrweg-Cache 

Hier eilen teil- oder mehr- 
wegassoziative Caches zu Hilfe. 
Die Adressen werden dabei in 
mehreren Ebenen gespeichert und 
miteinander verknüpft. Erfolgt 
ein Zugriff auf eine Adresse außer- 
halb des aktuellen Blocks, die aber 
dieselbe Anfangsadresse enthält, so 
wird der Speicherblock nicht kom- 
plett ausgetauscht, sondern in einer 


anderen Ebene gespeichert. 


Ein gern verwendeter Vergleich ist 
der Briefträger: Er sortiert die Post 
nicht nur in Straßenzüge (Tags), 
sondern obendrein auch nach der 
Straßenseite. Bei einem Abstecher 
in die Seitenstraße greift er sich nur 
das Briefbündel für eine Straßen- 
seite und legt das zweite Bündel 
der gegenüberliegenden Straßen- 


seite der alten Straße weg. Wenn er 


Prozessor 


Gache-Geschwindigkeiten 


Die Geschwindigkeit des Zwischenspeichers nimmt immer mehr ab, je 
weiter dieser vom CPU-Kern entfernt ist - und das ist durchaus wört- 
lich zu nehmen! Bei einem Takt von 4 GHz können Elektronen aufgrund 
der maximalen Driftgeschwindikeit nur noch ca. 2,5 Millimeter pro Takt 
zurücklege (dies ist zudem ein rein theoretischer Wert ohne alle ande- 
ren praxisrelevanten Faktoren) 


Wichtig auch: Die Transfergeschwindigkeit sagt nichts über die Laten- 


zen aus; im Einzelfall kann der Transfer deutlich langsamer, aber auch 
schneller erfolgen als im Benchmark-Programm gemessen. 


Cache- und Speichertransfer bei 3,7 GHz CPU-Takt 


L1-Cache Lesen Schreiben Kopieren 
Skylake 918 GB/s 462 GB/s 921 GB/s 
Broadwell 903 GB/s 461 GB/s 918 GB/s 
Haswell 920 GB/s 461 GB/s 918 GB/s 
L2-Cache Lesen Schreiben Kopieren 
Skylake 388 GB/s 251 GB/s 354 GB/s 
Broadwell 359 GB/s 148 GB/s 215 GB/s 
Haswell 360 GB/s 148 GB/s 218 GB/s 
L3-Cache Lesen Schreiben Kopieren 
Skylake 250 GB/s 160 GB/s 232 GB/s 
Broadwell 188 GB/s 123 GB/s 141 GB/s 
Haswell 195 GB/s 140 GB/s 156 GB/s 
L4-Cache (EDRAM) Lesen Schreiben Kopieren 
Skylake - - - 
Broadwell 51,2 GB/s 36,4 GB/s 43,2 GB/s 
Haswell - > S 
Arbeitsspeicher Lesen Schreiben Kopieren 
Skylake 32,0 GB/s 32,8 GB/s 31,8 GB/s 
Broadwell 27,7 GB/s 25,0 GB/s 28,7 GB/s 
Haswell 24,3 GB/s 25,1 GB/s 23,6 GB/s 


486-CPUs besaßen als 
erste x86-Prozessoren 
einen 8 kiByte großen 
On-Die-L1-Cache, Deri- 
vate anderer Hersteller 
(Cyrix, TI) mussten mit 
1 kByte auskommen. 


Bild: DEC 
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Wie Cache-Speicher 
intern aufgebaut ist 


Ein SRAM-Cache benötigt zur Speicherung eines einzigen Bits satte 
sechs Transistoren. Vier Transistoren speichern die Information, die 
restlichen werden zum Ein- und Auslesen benötigt. Daneben gibt es 
aber auch eine Reihe alternativer und verbesserter SRAM-Designs; 

in der Nehalem-Architektur beispielsweise kommen SRAM-Zellen mit 
acht Transistoren zum Einsatz, die für einen geringeren Energiebedarf 
sorgen sollen. 


Warum es für kurze Zeit 
Slot-Prozessoren gab 


Der erste AMD Athlon besaß ebenso wie einige Pentium Il und Ill einen 
L2-Cache in Form von auf der CPU-Platine aufgelöteten SRAM-Chips. 
Dazu war damals die Slot-Bauweise nötig. Später passte der Cache 
aufgrund des besseren Herstellungsprozesses auf den Chip - die 
Slot-Gehäuse verschwanden wieder. 


Bild: AMD 
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aus der Seitenstraße zurückkommt, 
hat er immer noch das Bündel der 
Seite in der Hand, bei der er abge- 


bogen ist. 


Level-1-Caches aktueller CPUs sind 
in der Regel 2-Wege-assoziativ, 
Level-2-Caches meist 2- bis 8-We- 
ge-assoziativ und Level-3-Caches 
16-Wege-assoziativ. Konkret hat 
beispielsweise Intels Skylake 4-We- 
ge-assoziative L2-Caches (256 Ki- 
Byte), während AMD bei Ryzen 
auf 8-Wege-Assoziativität setzt (512 
KiByte). Diese Parameter sind aber 
immer wieder Gegenstand von Op- 
timierungsversuchen der CPU-Ar- 
chitekten. 


Instruktions-Cache 

Intels Pentium 4 brachte einen 
Sonderfall des L1-Instruction-Cache, 
den sogenannten „Trace Cache“. Seit 
dem 6x86 dekodieren x86-Prozes- 
soren jede Instruktion vor ihrer 
Ausführung in RISC-artige Mik- 
ro-Operationen. Dieser Vorgang der 
Dekodierung kostet natürlich Re- 


chenzeit sowie ein wenig Energie. 


Um diese zu sparen, speicherte der 
Pentium 4 zirka 12.000 RISC-artige, 
bereits dekodierte Mikro-Operatio- 
nen (uOps) im L1-Trace-Cache. Der 
Trace Cache verschwand wenig spä- 
ter wieder, erlebte aber mit der San- 
dy-Bridge-Architektur ein Come- 
back und ist heute Bestandteil fast 
aller Intel- und AMD-Prozessoren. 
Ein „Trace“ oder „Dekodierter-Be- 
fehls“-Cache exisitiert übrigens fast 
immer zusätzlich zum L1-Instrukti- 


onscache. 


Cacheverwaltung 

Zusätzlich zu den erwähnten Va- 
rianten unterscheidet man zwi- 
schen inklusiver und exklusiver 
Cacheverwaltung. Bei der inklusi- 
ven Verwaltung nehmen die einzel- 
nen Cache-Stufen keine Rücksicht 
darauf, ob Daten bereits in der an- 


deren Stufe liegen oder nicht. Es 


kann also vorkommen, dass Daten 
sowohl im L1- als auch im L2-Cache 
liegen (oder analog dazu im L2- und 
L3-Cache) und damit mehrfach vor- 
handen sind. Angesichts der gerin- 
gen Größe der Caches eigentlich 
eine böse Verschwendung. Aller- 
dings arbeitet ein inklusiver Cache 
aufgrund des niedrigeren Verwal- 
tungsaufwandes in der Regel mit 


sehr niedrigen Latenzzeiten. 


Beim exklusiven Cache dagegen 
können Daten niemals gleichzeitig 
in L1 und L2 liegen und damit Platz 
verschwenden. Die beiden Cache- 
stufen werden so verwaltet, als wä- 
ren sie ein großer Cache-Pool - mit 
dem einzigen Unterschied, dass der 
L1 noch einmal schneller arbeitet 
als der L2. Der Nachteil dabei: Die 
Latenzen sind etwas höher. Bei ak- 
tuellen CPU-Architekturen der x86- 
Welt sind die L3-Caches meist inklu- 


siv ausgelegt. 


Cachegröße 

Je größer der Cachespeicher, des- 
to mehr Daten kann die CPU im 
Puffer halten und desto größer ist 
die Wahrscheinlichkeit, dass sich 
ein benötigtes Datenpaket bereits 
im Cache befindet. Aktuell scheint 
der beste Kompromiss zwischen 
Cache-Größe und Platzbedarf auf 
dem CPU-Kern bei zirka sechs bis 
acht MiByte für den L3-Cache zu 
liegen; fast alle Mittelklasse-Prozes- 
soren, egal ob bei AMD oder Intel, 


bewegen sich in diesem Rahmen. 


Bei den L2-Caches pendeln die Grö- 
ßen zwischen 64 und 512 kiByte 
pro Kern. Der L1-Cache ist noch 
kleiner und meist 16 bis 64 kiByte 
groß. Die Entwickler experimen- 
tieren aber immer wieder mit den 
Größen und münzen ein nicht ganz 
ausgeschöpftes Transistorbudget 
gerne mal in zusätzlichen Cache 
um. AMDs Ryzen beispielsweise hat 
nun wieder mehr Datencache (32 
statt 16 KiByte). 


b FMA, AVX oder SGX; all die- 
O.. Begriffe, die aus dem Wort- 
schatz eines PC-Enthusiasten nicht 
mehr wegzudenken sind, haben 
eines gemeinsam: Es sind Versuche 
der Prozessorhersteller, die Unzu- 
länglichkeiten der ursprünglichen 


x86-Architektur auszugleichen. 


Architektur-Defizite 

Im Gegensatz etwa zu den CPUs 
der Amiga-Rechner in den 80er-Jah- 
ren waren der Intel 8086 und sei- 
ne Nachfolger nie dafür gedacht, 
3D-Spiele auf den Bildschirm zu 
zaubern oder wie die Apple- bzw. 
Alpha-Prozessoren komplexe Gra- 
fikberechnungen in Echtzeit durch- 
zuführen und mit Vektoren im drei- 


dimensionalen Raum zu hantieren. 


Dass es im Endeffekt anders ge- 
kommen ist, verdankt der PC vor 
allem seiner weiten Verbreitung, 
findigen Programmierern, die es 
verstanden haben, mit intelligenter 
Programmierung beispielsweise 
auch Rennsimulationen 286-taug- 
lich zu machen, sowie etlichen 
Hardware-Entwicklungen in die- 
se Richtung (3D-Add-on-Karten, 


MPEG-Karten, etc). 


Aufgrund seiner nur bedingt taug- 
lichen Konzeption suchten die In- 
genieure bei Intel und AMD aber 
schon früh nach einer Möglichkeit, 
dem PC-Prozessor weitere Features 
mit auf den Weg zu geben, ohne zu 
bestehender Hard- und Software in- 


kompatibel zu werden. 


MMX 
Den Anfang machte Intel 1996 mit 
dem Pentium MMX. Die MMX-Unit 
war die erste SIMD-Einheit in einem 
x86-Prozessor. Dieses Rechenwerk 
kann mit einer Instruktion mehre- 
re Daten miteinander verarbeiten 
(SIMD = 


tiple Data). Dazu spendierte man 


Single Instruction, Mul- 


der CPU acht zusätzliche Register 
namens MMO bis MM7, welche 
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So funktionieren 
x86-Erweiterungen 


den neuen Datentyp „Packed“ auf- 


nehmen konnten. Diese Register 
konnte man nun mit verschiede- 
nen Packed-Varianten füllen. Zwei 
32-Bit-Zahlen, vier 16-Bit-Zahlen oder 
acht 8-Bit-Zahlen. Addiert man nun 


Pentium 


beispielsweise MMO mit MM1 (oder g N , d ed 
führt eine beliebige Rechenoperati- 
on aus), so hat man mit einer Instruk- 


tion im Idealfall acht Zahlen mitein- 


ander verrechnet statt nur eine mit 


dem herkömmlichen Design. Die erste Befehlssatz-Erweiterung in der x86-Welt brachte Intels Pentium 


MMX - bis heute weiß niemand, wofür MMX eigentlich steht, für „Multimedia 
Extensions“ jedenfalls nicht, wie Intel stets bekräftigte. 


3DNow und SSE 


Bald jedoch stellte sich heraus, 
dass SIMD zwar eine gute Idee war, 
MMX im Speziellen sie aber am 
Thema vorbei in die Praxis umsetz- 
te. Die MMX-Unit war eine reine 


Ganzzahl-Einheit und ließ damit Ein aktueller Pro- 


zessor verfügt über 
ein gutes Dutzend 
Erweiterungen des 
ursprünglichen 
Befehlssatzes. Je 
besser diese genutzt 
werden, desto grö- 
Der der Leistungs- 
gewinn. 


die nötige Genauigkeit bei Koor- 
dinaten- und Grafikberechnungen 
vermissen. Es musste eine Ein- 


heit her, die auch Gleit- 


komma-Berechnungen al 
anstellen konnte. 


Die Gleitkom- 
ma-SIMD-Einheit präsen- 
tierte AMD im K6-2 1998 


dem 


erste 


unter Markennamen 
3DNow. Intel ließ sich jedoch 
nicht zweimal bitten und führte 
mit dem Pentium III Katmai bald 
darauf SSE (zu Anfang noch ISSE 
genannt; Entwicklungscode KNI 
für „Katmai New Instructions“) ein. 
3DNow und SSE wurden zwar für 
denselben Zweck entworfen, sind 
jedoch inkompatibel zueinander. 
Intel brachte es als Marktführer 
damals (noch) nicht übers Herz, 
eine bestehende Entwicklung des 
Hauptkonkurrenten aufzugreifen 


und in die eigenen Produkte zu in- 
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Bild: Intel 
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Wie SSE-Register 
aufgebaut sind 


SSE erhöht die Rechenleistung drastisch: Die zusätzlichen Register 
sind „breiter“, was bedeutet, dass sie mehr Bits aufnehmen und ver- 
arbeiten können. So können entweder sehr große/lange Zahlen (bei- 
spielsweise mit vielen Nachkommastellen) oder mehrere kurze Zahlen 
in einem Schritt verrechnet werden. 


SSE-Register 
Mit SSE ist es möglich, bis zu 16 8-Bit-Zahlen in einem Aufwasch mit- 
einander zu verrechnen. 


96 2876669757992 8 ua 


SSE-2-Register 
Entscheidende Innovation von SSE 2 war die Verarbeitung von 
64-Bit-Double-Precision-Floatzahlen. 


addpd, xmm1, xmm2 


PB Quell-/Ziel-Register 

E Quelle 2 

= Überschriebenes 
Register 


Parsing Using New Intel® SSE4.2 Instructions 


State Transitions Ei 
<soap:Envelope 


Xmins:soap="http://www.w3.0rg/2003/05/soap-envelope” 
Xmins:wsa="http://schemas.xmisoap.org/ws/2004/03/addressing"> 


Za zu < 


Parsing Using Traditional Intel® Architecture Instructions 


SSE-4.2-Befehle adressierten vor allem die Stringverarbeitung. Sofern der 
Programmierer bzw. Compiler sie nutzt, beschleunigen diese das Parsing 
von zum Beispiel XML-Dateien drastisch. 
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tegrieren. So konkurrierten 3DNow 
und SSE jahrelang miteinander, wo- 
bei sich SSE schließlich durchsetz- 
te. SSE hat den Vorteil, auf einen 
Satz von 128 Bit breiten Datenre- 
gistern zurückgreifen zu können, 
während 3DNow auf 64-Bit-Größe 
beschränkt war. Damit konnte man 
bei SSE zum Beispiel vier Single-Pre- 
cision-Floatzahlen gleichzeitig ver- 
rechnen, während mit 3DNow nur 
zwei möglich sind. Das war das To- 
desurteil für 3DNow und heute ist 
die Erweiterung auch kein Bestand- 


teil mehr von AMD-Prozessoren. 


Allen SIMD-Befehlen ist gemein, 
dass sie explizit vom Programmie- 
rer genutzt werden müssen. Im 
Zweifelsfall muss der Programmie- 
rer den kompletten Code in Assem- 
bler schreiben, eine Vorgehenswei- 
se, die viel Mühe, Zeit und damit 
Geld kostet. 


Erweiterung SSE 2 

Mit SSE kam die Entwicklung von Be- 
fehlssatz-Erweiterungen erst richtig 
in Schwung. Der Pentium 4 brachte 
schon SSE 2. SSE 2 ermöglichte es 
nun auch, Doule-Precision-Float- 
zahlen, also Gleitkommazahlen mit 
64-Bit-Genauigkeit, zu berechnen, 
während SSE und 3DNow hier auf 


32-Bit-Zahlen beschränkt waren. 


Bei der Verdoppelung der Datenre- 
gister-Breite blieb es jedoch nicht. 
Zusätzlich spendierte Intel 144 neue 
Befehle, was die Mächtigkeit und 
die Bandbreite an möglichen Ein- 
satzgebieten deutlich erhöhte. Gera- 
de was die Berechnung von Video- 
material betrifft, bietet SSE 2 dem 
Programmierer einige Werkzeuge 
„in Hardware“ an, die entweder das 
Encoding beschleunigen können 
oder die Wiedergabe mit niedrige- 


rer CPU-Last möglich machen. 


Die Nachfolger: SSE 3, 
SSSE 3, SSE 4 


Deutlich weniger spektakulär war 


die Einführung des SSE-3-Befehls- 
satzes, einer erneuten Erweiterung 
der SSE-Basis. SSE 3 erweiterte den 
SSE 2-Befehlssatz um zusätzliche 13 
Instruktionen zur Wandlung von 
Gleitkommazahlen in Ganzzahlen, 
für komplexe Arithmetik, zur Vi- 
deo-Kodierung, zur Unterstützung 
der Grafik-Aufbereitung und zur 
Thread-Kommunikation bei den 
Intel-Hyper-Threading-Prozessoren. 
Erstmals zum Einsatz kam SSE 3 
beim Intel Pentium 4 Prescott (PNI: 
Prescott New Instructions). SSSE 3 
(Supplemental Streaming SIMD Ex- 
tensions 3) bezeichnet die mit In- 
tels Core-Architektur eingeführten 
Erweiterungen des SSE-3-Befehls- 
Satzes. 


Während SSSE 3 mit 32 neuen Be- 
fehlen nur eine geringfügige Er- 
weiterung zu SSE 3 darstellt, ist SSE 
4 mit 50 neuen Opcodes eine sub- 
stanzielle Verbesserung. SSE 4 wur- 
de mit den 45-nm-Prozessoren be- 
ginnend ab dem Penryn eingesetzt. 
SSE 4 besteht aus zwei „Subsets“, 
nämlich SSE 4.1 (ab Penryn) und 
SSE 4.2 (ab Nehalem). SSE 4a dage- 
gen ist eine AMD-spezifische Erwei- 
terung, die ab dem Barcelona-Kern 


zum Einsatz kommt. 


SSE 5 und AES 

Mit SSE 4 war es erst einmal vorbei 
mit den „Streaming Extensions“ - 
SSE 5 gabe es nie, auch wenn dies 
vorschnell angekündigt wurde. 
AMD wollte ursprünglich eine eige- 
ne Befehlssatz-Erweiterung entwi- 
ckeln, die der „Bulldozer“-Architek- 
tur hätte mitgegeben werden sollen 
und dieser ein Alleinstellungsmerk- 
mal beschert hätte. Dazu kam es 
aber nicht - weshalb, ist bis heute 
unklar. Ein Großteil der Befehle ist 
stattdessen in anderen Erweiterun- 


gen aufgegangen. 


Statt SSE ging es ab dem Jahr 2008 
mit AES weiter. Der „Advanced 
Encryption Standard“ (AES) um- 


fasst sieben Instruktionen, welche 
kryptografische Operationen be- 
schleunigen. Truecrypt unterstützt 
AES und kann im Idealfall bis zu 
viermal schneller arbeiten. Meist 
limitieren aber andere Komponen- 
ten, etwa die Festplatte. Intels Co- 
re-i5-Modelle auf Clarkdale-Basis, 
die Gulftown-Sechskerner und alle 
i5-/i7-CPUs ab der Sandy-Bridge-Ar- 
chitektur beherrschen den Stan- 
dard, bei AMD sind alle CPUs nach 
der Bulldozer-Architektur (also Pi- 
ledriver, Steamroller, Jaguar usw.) 
AES-fähig. 


schen sogar einige ARM-Prozesso- 


Mittlerweile beherr- 
ren AES, wovon vor allem NAS-Sys- 
teme und kleine Server profitieren 
können. 


AVX ... 

Grundlegende Neuerungen folgten 
2011. Sandy Bridge und Bulldozer 
führten erneut einen neuen Be- 
fehlssatz ein, der die Registerbreite 
ein weiteres Mal auf nunmehr 256 
Bit erhöhte. Das erlaubte die paral- 
lele Verarbeitung von beispielswei- 
se vier Werten mit 64 Bit (Fließ- 
komma mit doppelter Genauigkeit) 
oder 8 mit 32 Bit (einfache Genau- 
igkeit). 


Zudem enthält AVX auch nicht-des- 
truktive Befehle: Werden beispiels- 
weise Werte aus den Registern A 
und B addiert, kann das Ergebnis in 
Register C abgelegt werden. Bei SSE 
überschreibt es dagegen Register 
A und für weitere Berechnungen 
muss der ursprüngliche Wert gege- 
benenfalls erneut aus dem L1-Cache 
in die, für die eigentlichen Rechen- 
operationen genutzten, Register ge- 
laden werden. 


Bulldozer unterstützt zusätzlich ex- 
klusiv die aus AMDs SSE5-Vorschlag 
hervorgegangenen Befehlssätze 
XOP und CVT 16 und zusätzlich 
FMA 4. Einen Teil von deren Funk- 
tionalität hat Intel in Form der „Ad- 


vanced Vector Extensions 2“ mit 


der Haswell-Architektur eingeführt, 
wodurch es zu einiger Verwirrung, 
kam. Nicht gerade durchsichtiger 
wurde die Lage dadurch, dass Cele- 
ron- und Pentium-Modelle anfangs 
überhaupt keinen AVX-Support bo- 
ten, dann schon und heute wieder 


nicht. 


Wie alle Befehlssatz-Erweiterungen 
benötigt auch AVX-Unterstützung 
durch die Software. Betriebssys- 
tem-seitig hat Microsoft erst ab 
Windows 7 SP1 eine entsprechende 
Unterstützung integriert. Erhielten 
die SSE-Register bei ihrer Einfüh- 
rung die Bezeichnung „XMM“, so 
wurden die AVX-Register nun als 
„YMM“ in Datenblättern und Anlei- 


tungen bezeichnet. 


„.. und AVX 2 
Die Entwick- 
lungsstufe hieß AVX 2 und wurde 


nächste logische 
mit den Haswell-Prozessoren 2013 
eingeführt - als Codename wähl- 
te Intel „HNI“ für „Haswell New 
Die AVX-2-Befehle 


ermöglichen unter anderem schnel- 


Instructions“. 


lere, gezielte Manipulationen und 
Abfragen von einzelnen Bits in 
einem längeren String. Intel ver- 
spricht die Beschleunigung von di- 
versen Multimedia-Anwendungen, 
insbesondere Spielen, Audio- und 


Video-Bearbeitung. 


Die neuen Befehle ermöglichen es 
unter anderem, Registerinhalte di- 
rekt als Maske zu nutzen und erlau- 
ben schnellere, gezielte Manipulati- 
onen und Abfragen von einzelnen 
Bits aus längeren Zeichenketten 
(„Strings“). Etwas greifbarer sind 
dagegen die prinzipiellen Erweite- 
rungen, die ähnliche Wirkung ent- 
falten sollen: 256 Bit Integer und 
FMA 3. 


256-Bit-Integer- 
Kommandos 
AVX (1)-CPUs 

theoretisch mit 256 Bit Registern, 


arbeiteten zwar 


Prozessor 
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Mit synthetischen Benchmarks ist es möglich, den Einfluss von SIMD-Be- 


fehlen auf die Leistung zu testen und zu vergleichen. 


Intel® Advanced Vector Extensions 
(Intel® AVX) 


A 256-bit vector extension to SSE 
« Intel® AVX extends all 16 XMM registers to 256bits 


256 bits(2011) 128 bits (1999) 
s Intel AVX works on either: 

- The whole 256-bits 
s For FP only 

- The lower 128-bits (like existing Intel® SSE instructions) 
= A drop-in replacement for all existing scalar/128-bit SSE 

instructions 

= The upper part of the register is zeroed out 


Die mit AVX eingeführten Register YMMO bis YMM15 lassen sich nur für 
Gleitkommaberechnungen nutzen. Für Integer-Berechnungen stehen bis 


zur AVX2-Einführung nur die alten SSE-Befehle zur Verfügung, welche 
die untere Hälfte wie die mit SSE1 definierten Register XMMO bis XMM15 
ansprechen. 
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Prozessor 


FMA4 Transactional 


Memory 


RdRand 


Mehr als ein Dutzend Erweiterungen des Befehlssatzes sind in aktuel- 
len Prozessoren implementiert. Leider sind nicht alle kompatibel, nur die 
Schnittmenge (Bildmitte) wird sowohl von AMD als auch Intel unterstützt. 


ptunertr-Egmo 


Trotz aller Fortschritte führen Befehlssatz-Erweiterungen immer wieder zu 
Problemen: So stürzte beispielsweise No Man’s Sky ab, wenn der Prozessor 
kein SSE 4 beherrschte (mittlerweile per Patch behoben). 
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dies kam allerdings eher selten vor. 
Denn bis dato nutzten lediglich eine 
Reihe von Gleitkomma-Befehlen die 
erweiterten Register. Integer-Werte 
verwendeten nur die untere Hälfte 
der Register, der Rest wurde mit 
Nullen gefüllt. AVX 2 behebt diese 
Beschränkung auf alte SSE-Befeh- 
le und erweitert den Befehlssatz 
256-Bit-Inte- 


um entsprechende 


ger-Kommandos. 


FMA 3 und FMA 4 
FMA 3 haben wir bislang übergan- 
„Fused Multiply-Add‘“-Einhei- 


ten können in einem Arbeitsschritt 


gen. 


eine Multiplikation und eine Additi- 
on/Subtraktion durchführen. Dies 
führt einerseits zu einem Genau- 
igkeitsgewinn, da nur einmal am 
Ende der Operation gerundet wird. 
Andererseits beschleunigt die Kom- 
bination auch den Rechenablauf 


und damit die Gesamtleistung. 


Die „3“ steht hier aber nicht für die 
dritte Version dieser Befehlssatz-Er- 
weiterung, sondern für die Tatsa- 
che, dass drei Register verwendet 
werden. Eine „fusionierte“ Multipli- 
kation ergibt also in einem Rechen- 
schritt das Ergebnis einer Opera- 
tion wie (A * B) + C. Das Ergebnis 
überschreibt allerdings eines der 


Quellregister. 


Ein Mangel, der natürlich umge- 
hend mit „FMA A" behoben werden 
musste. Analog zu FMA 3 gibt die 
„4“ bei der Nachfolge-Erweiterung 
ebenfalls die Zahl der verwendeten 
Register an: (A*B) + C = D nach 
der Verrechnung der Werte aus drei 
Registern wird das Ergebnis also in 


einem vierten gespeichert. 


Beide Entwicklungen stammen von 
AMD - Intel hat zwar FMA3 seit der 
Haswell-Generation implementiert, 
für FMA 4 liegen aber bislang noch 
keine Informationen vor. Bevor In- 
tel sich auf FMA3 festlegte, hatte 
AMD bereits angekündigt, in zu- 


künftigen CPU-Architekturen even- 
tuell beide Varianten zu implemen- 


tieren. 


Für Bulldozer-Besitzer könnte die 
Entscheidung Intels dagegen be- 
deuten, dass die FMA4-Fähigkeit 
ihrer SIMD-Einheiten nie genutzt 
werden wird, da Softwareentwick- 
ler eine flächendeckende FMA3-Un- 
terstützung erwarten können, wäh- 
rend eine FMA4-Fixierung nur das 
obere Ende von AMDs letztjährigen 


Neuvorstellungen betrifft. 


AVX 3 

Die vorerst letzte Erweiterung 
AVX 3 (auch bekannt als „AVX-512°) 
ist zwar schon spezifiziert und seit 
2013 in Grundzügen bekannt; sie 
war lange Zeit aber lediglich auf Be- 
schleunigerkarten von Intel („Xeon 
Phi“, 
ding“) verfügbar. Erst in Gestalt des 
Skylake-X-Prozessors bekam AVX- 
512 (F) in jüngster Vergangenheit 


Codename: „Knights Lan- 


eine minimale Verbreitung. 


Befehlssatzerweiterun- 
gen heute 

Die Erweiterungen des ursprüng- 
lichen x86-Befehlssatzes sind eine 
Erfolgsstory. Mit jeder neuen Versi- 
on wurden Schwächen und Unzu- 
länglichkeiten der ursprünglichen 
x86-Architektur 
dauert es jeweils einige Jahre, bis 


beseitigt. Zwar 
die Verbreitung der CPUs so hoch 
ist, dass sich die Entwickler trau- 
en, ihre Software entsprechend zu 
compilieren; doch der Leistungsge- 
winn ist im Regelfall enorm. 

Außerhalb des x86-Universums 
hören die Erweiterungen auf die 
Namen Altivec, VMX, Velocity En- 
gine (Motorola-CPUs in den alten 
Apple-Power-PCs) oder VMX128 in 
IBMs Xenon-PowerPC-CPU, in der 
Xbox 360 oder dem IBM Cell in der 
Playstation 3. Altivec galt seinen 
Pendants aus der Intel-Welt lange 


Zeit sogar als deutlich überlegen. 


D: Verbesserungen, die wir 
bisher beschrieben haben, 


betreffen nahezu alle den CPU-Kern 
und dessen direkte Rechenleistung. 
Pipelining, Out-of-Order-Execution, 
Befehlssatzerweiterungen und so 
weiter sind jedoch nicht beliebig 


ausbaubar. 


Entwicklungs-Barrieren 

Mehrere Grenzen tun sich für 
CPU-Entwickler auf: Einerseits ist 
der Platz auf dem Siliziumplättchen 
nicht beliebig erweiterbar. Jeder 
CPU-Generation steht nur eine 
gewisse Anzahl an Transistoren 
zur Verfügung; dieses so genannte 
„Iransistorbudget“ wird zwar mit je- 
der neuen Generation größer, doch 
wird ein Großteil der mittlerweile 
sogar milliardenfach vorhandenen 
elektrischen Schalter schon alleine 


für Cache benötigt. 


Andereseits ist der CPU-Takt, der 
zweifellos jeden Kern schneller ma- 
chen würde, nicht beliebig steiger- 
bar. In der Vergangenheit hat sich 
eine Taktgrenze von etwa vier bis 
fünf Gigahertz herauskristallisiert, 
je nach CPU-Architektur kann diese 
etwas weiter oben oder unten ange- 


siedelt sein. 


Mehr Prozessoren 

Einen recht einfachen Weg aus 
diesem Dilemma fanden die Ent- 
wickler schon vor Jahrzehnten: Sie 
kombinierten einfach mehrere Pro- 
zessoren zu einem „Superrechner“, 
was als „SMP“ (Symmetric Multipro- 


cessing) bezeichnet wird. 


Tatsächlich basiert die Leistungsfä- 
higkeit älterer wie neuerer Super- 
computer meist nur auf der nackten 
Anzahl an Prozessoren im System. 
Eine Cray X-MP von 1983 vereinte 
(damals bescheidene) vier CPUs, 
aktuelle Vertreter der Supercom- 
puterliste arbeiten mit knapp einer 
halben Million Prozessoren! Warum 


sollte man also nicht einfach meh- 


Prozessor 


So funktionieren Multipro- 
cessing und Multitasking 


rere Prozessoren auch in einem 
Desktop-PC nutzen? Bevor wir uns 
dieser Frage näher widmen, müssen 
wir uns aber ansehen, wie ein Pro- 


gramm genau aufgebaut ist. 


Prozesse und Threads 

Wenn wir auf unserem Computer 
ein Programm starten, öffnen wir 
damit in der Regel einen Prozess. 
Früher, zu DOS-Zeiten, bestand ein 
Prozess immer aus genau einem 
Thread. Bei vielen Kommandozei- 
len-Anwendungen ist das auch heu- 
te noch so. Wenn das Programm 
gestartet wird, sind keine Ein- oder 
Ausgaben mehr möglich, ohne die 
Laufzeit des Programms zu unter- 


brechen. 


Windows-Programme oder allge- 
mein Programme mit Benutzer- 
oberfläche bestehen dagegen 
zumindest aus zwei Threads: der 
Oberfläche und dem eigentlichen 
Arbeitsthread. So ist es möglich, 
eine Oberfläche auch dann noch 
zu bedienen, wenn das Programm 
auf Vollgas werkelt, bei einer Video- 
software zum Beispiel während ein 


Film umgewandelt wird. 


Eine andere Möglichkeit ist es, 
Oberfläche und Programm strikt zu 
trennen. In einem solchen Fall oft 
net die Oberfläche beim Start der 
Videoumwandlung ein zusätzliches 
Programm, meist auf Kommando- 
zeilenebene. Ein typischer Vertreter 
dieser Gattung ist der MP3-Encoder 
Lame. Von dieser Möglichkeit wird 
aber nur selten Gebaruch gemacht. 
Wie genau Prozesse und Threads 
entworfen wurden, fällt in das Auf- 
der 


gabengebiet Programmierer 


Ed. ; 
// MR 
Kr 
Zur Legende wurde Abits BP6, das als eines der ersten Mainboards den Ein- 
satz zweier günstiger Prozessoren in einem Desktop-PC ermöglichte 


Der Athlon MP von 
2001 war der erste 


SMP-fähige Prozes- 
sor bei AMD 


So funktioniert ein PC 37 


Prozessor 


Worin sich Prozess, Thread 
und Task unterscheiden 


Die Begriffe Task, Thread und Prozess sind verwirrend und werden 
häufig selbst von Experten durcheinandergebracht. Daher hier ein kur- 
zer Überblick, der hoffentlich die Unterscheidung erleichtert. 


Prozess 

Der Prozess lässt sich am einfachsten von allen anderen Vorgängen 
abgrenzen. Er ist pro Programm immer nur einmal vorhanden - ein 
Programm eröffnet also immer genau ein Prozess. Dieser Prozess 
bekommt seinen eigenen Speicherbereich zugewiesen, er ist also un- 
abhängig von etwaigen anderen Prozessen. Auf einem SMP-System 
lassen sich immer mindestens zwei Prozesse parallel betreiben. 


Thread 


Ein Thread wird gelegentlich auch als Programmfaden bezeichnet. Er 
ist also Teil eines Prozesses. Als solcher kann er nur auf den Speicher- 
bereich (korrekt: den Adressraum) seines Mutterprozesses zugreifen. 
Auch alle anderen wichtigen Ressourcen, etwa die CPU-Zeit, hängen 
vom Prozess ab. Ein Prozess hat immer mindestens einen Thread. 


Task 


Nun können wir uns auch um den letzten verbliebenen Begriff küm- 
mern. Nach moderner Definition ist ein Task ein Prozess mit mehreren 
Threads - ein Prozess demnach aber immer nur ein Prozess mit genau 
einem Thread. 


Häufig wird der Task umgangssprachlich aber einfach mit einem Pro- 
gramm gleichgesetzt - egal mit wie vielen Threads. Selbst Microsoft 
redet vom „Task-Manager“ und nicht etwa vom „Prozess-Manager“. 


und der Compiler. Daneben ist es 
auch möglich, einen Prozess nicht 
nur auf zwei, sondern auf mehre- 
re unabhängige Threads aufzutei- 
len - so wie im oben erwähnten 
Windows-Programm, nur dass jetzt 
nicht mehr lediglich Oberfläche 
und „Arbeits-Thread“ getrennt wer- 
den, sondern die komplette Ausfüh- 
rung in mehrere, möglichst unab- 


hängige Threads zerlegt wird. 


Arbeitsteilung 

Ist ein Programm erst einmal so 
aufgeteilt, lassen sich die Prozesse 
auch auf mehrere Prozessoren ver- 
teilen, beispielsweise bei einer sehr 
ungleichen Verteilung der Rechen- 
zeit zweier Aufgaben. Das macht die 
Rechner natürlich viel flexibler und 
leistungsfähiger. 

Vorteil dieses Multi-Processings 
oder Multi-Threadings ist also ent- 
weder ein deutliches Geschwin- 
digkeitsplus oder ein besseres 
Ansprechverhalten, wenn nur ein 


Prozessor mit einer Aufgabe ausge- 


lastet ist und der zweite nach wie 
vor vollständig zum Arbeiten zur 
Verfügung steht. Wenn es gelingt, 
die Aufgaben gut zu verteilen, sind 
die Leistungssteigerungen immens: 
Die Rechenleistung des Systems 
steigt im Idealfall nahezu linear mit 
der Anzahl der Prozessoren, und 
das bei mittlerweile recht geringen 


Mehrkosten. 


Doch ein Problem gibt es: Bei vielen 
SMP-Systemen wird die komplette 
externe Peripherie geteilt. Das kann 
sich als Bremsklotz erweisen. Chip- 
satz, Speicher und Grafikkarte sind 
dann nur einfach vorhanden, was 
früher den PCI-Bus überforderte 
und auch heute noch für manchen 
Engpass sorgen kann (mehr dazu 


im Mainboard-Kapitel). 


Betriebssysteme 

und CPUs 

Softwareseitig sind in der x86- 
Welt die Voraussetzungen für den 
Einsatz mehrerer Prozessoren seit 
Windows NT von 1993 geschaffen. 


Wie Multiprocessing in der x86-Welt umgesetzt wurde 


Seit Windows eine echte Unterstützung für SMP mitbrachte, gab es immer wieder Ansätze, das Rechnen 
mit mehreren Prozessoren umzusetzen. Dle wichtigsten stellen wir in dieser Übersicht vor. 


Frontside-Bus (gemeinsam verwendet) 


North- 
Einkanal-Speicherbus bridge 
(gemeinsam v.) 


Speicher 


In den anfänglichen SMP-Designs, etwa der Pentium-Ill-Plattform, teilten 


sich zwei Prozessoren einen gemeinsamen Frontside-Bus. 
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Speicher 


Frontside-Bus 
(Punkt-zu-Punkt) 


Einkanal-Speicherbus 
(gemeinsam v.) 


AMD stattete seine Systeme mit zwei Athlon-MP-Prozessoren aus, wobei 
jede CPU über einen eigenen Punkt-zu-Punkt-FSB verfügen konnte. 


Allerdings war ein entsprechendes 
System für Heimanwender lange 
Zeit schlicht zu teuer und zu wenig 
praxistauglich, so dass SMP erst mit 
Windows 2000 und XP mehr ins 
Bewusstsein der Anwender rückte. 
Hardwareseitig wurden zudem be- 
stimmte Prozessorfunktionen be- 
nötigt, die erst mit dem 386 Einzug 
hielten und dadurch den SMP-Auf- 
bruch in der x86-Welt ebenfalls ver- 


wird. Ein so genannter „Scheduler“ 
teilt der Reihe nach jeder Anwen- 
dung abhängig von ihrer Priorität 
eine gewisse Prozessorzeit zu - mit 


Betonung auf „der Reihe nach“. 


Effektiv in Bearbeitung ist auf ei- 
nem „traditionellen“ Prozessor im- 
mer nur ein Thread! Der Anwender 
hat lediglich den Eindruck, meh- 


rere Programme würden tatsäch- 


zögerten. lich gleichzeitig arbeiten, da der 

Wechsel zwischen den Tasks sehr 
Präemptives schnell vonstatten geht. Aufgrund 
Multitasking der Arbeitsweise bezeichnet man 


Natürlich konnte man aber spä- 
testens seit Windows 95 auch auf 
einem Ein-Prozessor-System mehr 
als nur ein Programm ausführen. 


Und dass dies möglich wurde, ver- 


danken wir einer Funktion namens D savus.exe 2292 Wird ausgeführt SYSTEM 00 AAV - Online Update Dienst 
EB AcoRds2.ee 4560 Wird ausgeführt GMV Di Adobe Acrobat Reader DC 

„Multitasking“. Präemptives Multitasking ist übri- Wacoraszue 17272 Wird ausgeführt GMV m Adobe Acrobat Reader DC 
E dobe CEF Helper,exe 5244 Wird ausgefühtt GMV 00 Adobe CEF Helper 

gens keine Errungenschaft der x86- WBasebeDesitopSeni.. 14112 Wird ausgeführt GMV m Creative Cloud 
AdobelPCBrokerexe 7768 Wird ausgeführt GMV 00 5 | Adobe IPC Broker 

Die scheinbar parallele Verarbei- Welt, respektive Microsofts, Intels S AdobeUpdateseice... 952 Wird ER SYSTEM o0 Adobe Update Service 

Ag 2448 Wird ausgeführt SYSTEM 00 EaseUS Todo Backup Agent A. 


tung mehrerer Programme darf 
allerdings nicht darüber hinwegtäu- 
schen, dass die Arbeit tatsächlich 
abwechselnd 


immer ausgeführt 


dies auch als „präemptives Multitas- 
king“, abgeleitet vom englischen 
„preempt“, was „jemandem zuvor- 
kommen, um ihn von etwas abzu- 
halten“ bedeutet. 


oder AMDs. Im Gegenteil: Lange 
Zeit war diese Technik ein Privileg 
anderer Architekturen wie Motoro- 


las 68000er-Reihe samt passender 


Überblick: Opteron-System (SMP) 


CPUO 
| 


Speicher- 
Controller 


Zweikanal- 


Speicherbus 


Speicher- 
Controller 


CPU1 
| 


Zweikanal- 


Speicherbus 


Prozessor 


Commodores Amiga brachte schon 1985 präemptives Multitasking in beein- 
druckender Qualität - lang bevor dies auf x86-PCs sinnvoll nutzbar wurde 


Name PID Status 


Wie viele Threads ein Prozess aufgemacht 


hat, lässt sich am leichtesten mit dem 


Task-Manager herausfinden - Sie müssen 


die Spalte aber manuell hinzufügen 


Beschreibung 


Adobe Genuine Software Inte. 
Application Frame Host 

Adobe Acrobat Update Semio 
Windows Graphisolierung für 
Adobe Bridge 
Caleulator.exe 


Überblick: Xeon-System (SMP) 


CPUO 
| 


Speicher- 
Controller 


Vierkanal- 


Speicherbus 


PCle-3.0-Kanäle PCle-3.0-Kanäle 


CPU1 
| 


Speicher- 
Controller 


Vierkanal- 


Speicherbus 


Bild: © Bill Bertram 2006, CC-BY-2.5 via Wikipedia 


Die Opteron-Architektur sah für jede CPU einen eigenen Speicherbus vor. Zu- 
dem sind CPUs per HT-Link untereinander sowie mit dem Chipsatz verbunden. 


Und noch ein aktuelles Xeon-ES-System: Hier ist der Speicher mit vier Kanälen an- 
gebunden. Außerdem verfügen die CPUs über integrierte PCI-Express-Controller. 
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Bild: IBM 


Prozessor 


IBMs Cell-Processor basiert auf einer der wenigen CPU-Architekturen, die 
mit asymmetrischem Multiprocessing arbeiten. Gut zu erkennen im Bild ist 
die „Master“-Einheit oben sowie die acht „einfachen“ Recheneinheiten links 


und rechts 


"3 In früheren SMP-Systemen kommuni 
CPUs untereinander via Hyper Transport (AMD) 
oder einen gemeinsamen Bus (Intel). 
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zierten die 


Betriebssysteme, die zum Beispiel 
in den legendären Amiga-Rech- 
nern der 1990er-Jahre zum Einsatz 
kamen. Die Implementierung der 
Technik war ihrer Zeit damals um 
Jahre, wenn nicht Jahrzehnte vo- 
raus - auch heute noch kann man 
sich auf Online-Videoplattformen 
davon überzeugen, wie flüssig das 
Multitasking damals vonstatten 
ging (beispielsweise unter https:// 


youtu.be/emLXJadj9s4 ). 


Symmetrisch und 
asymmetrisch 

Doch zurück zum Multiprocessing: 
Das eben vorgestellte Multitasking 
steht keinesfalls im Widerspruch 
zu Multiprocessing. Im Gegenteil: 
Ist der Scheduler erst mal auf eine 
möglichst gleichmäßige Aufteilung 
der Arbeit eingestellt, kann man 
diese auch leicht auf mehrere Pro- 
zessoren verteilen. Weil die Arbeit 
in der Regel gleichmäßig auf die 
verfügbaren Ressourcen verteilt 
wird, spricht man auch von symme- 


trischem Multiprocessing. 


Beim asymmetrischen Multiproces- 
sing dagegen obliegt die Verteilung 
der Arbeit einem einzelnen Prozes- 
sor. Fällt dieser „Master“ aus, kann 
die Maschine nicht mehr weiter- 
rechnen. Ein Beispiel für eine sol- 
che Architektur ist IBMs Cell-Pro- 
zessor, der in der Spielekonsole 
Playstation 3 zum Einsatz kam. Der 
Chip bestand in der Ur-Ausfüh- 
rung aus einem „Power-PC-Pro- 
cessing-Element“ (PPE) und acht 
„Synergistic Processing Elements“ 
(SPE). Asymmetrische Lösungen 
waren wegen der anspruchsvollen 
Programmierung lange Zeit eher 
unpopulär, erlebten aber mit der 
Integration von Grafikprozessoren 
in die Gesamtleistung eines PCs ein 


Comeback . 


SMP-Probleme 
Bei aller Euphorie haben SMP-Ar- 


chitekturen eine Reihe handfester 


Nachteile und Probleme. Ein grund- 
sätzliches Problem ist die Anzahl der 


begrenzten externen Ressourcen. 


Wichtige PC-Komponenten abseits 
des Prozessors sind ja nach wie vor 
nur einmal vorhanden, etwa Spei- 
cher, Grafikkarte oder Massenspei- 
cher. Wollen mehrere Prozessoren 
auf dieselbe Ressource zugreifen, 
kommt es zu Konflikten, aus denen 
schlimmstenfalls Stillstände resul- 
tieren, die so genannten stalls (engl.: 
to stall = zum Stillstand bringen, 
stillstehen). Je mehr Prozessoren 
versuchen, simultan zum Beispiel 
auf die PCI-Express-Grafikkarte zu- 
zugreifen, desto mehr Rechenzeit 


wird mit Stillstand vergeudet. 


Speicher-Probleme 

Der gleiche Effekt tritt auch beim 
Arbeitsspeicher auf. Hierfür exis- 
tiert das sogenannte Locking (to 
lock = 


dern). Multiprozessor-Kernel von 


sperren, am Zugang hin- 


Betriebssystemen müssen einige 
zusätzliche Befehle implementie- 
ren, die beispielsweise den Arbeits- 
speicher vor parallelen Zugriffen 
schützen, um die Datenkonsistenz 
zu wahren, sprich: um Datensalat 
zu vermeiden. Greift eine CPU in 
einem SMP-System auf den Arbeits- 
speicher zu, so wird der Zugriff auf 
diesen zunächst für alle weiteren 
vorhandenen Prozessoren gesperrt 
und dem wartenden Prozessor 
der exklusive Zugriff gewährt. An- 
schließend muss der Arbeitsspei- 
cher wieder für alle Prozessoren 


freigegeben werden. 


Das Problem an diesem Prozede- 
re ist, dass der dabei entstehende 
Overhead gigantisch ist. Dieser 
Vorgang, der den ohnehin schon 
ausbremsenden Zugriff auf den 
Speicher noch weiter verlangsamt, 
wirkt nicht sonderlich leistungs- 
fördernd. Das Problematische an 
diesem Locking ist die Tatsache, 


dass nicht nur Single-threaded-Ap- 


plications, also Programme, die 
nicht für den Betrieb auf mehreren 
Prozessoren konzipiert sind, dieses 
Locking verursachen, sondern auch 
Multi-threaded-Applications. Aus 
diesem Grund kann die Rechnung 
„Leistungszuwachs um den Faktor 
der CPU-Anzahl“ in der Praxis nie- 
mals aufgehen. Bei ausschließlichem 
Einsatz von nicht SMP-optimierter 
Software kann ein Programm sogar 
langsamer arbeiten als der gleiche 


Rechner mit nur einer CPU. 


Cache-Probleme 

Ein weiteres Problem stellt die 
Kohärenz der Inhalte der unter- 
schiedlichen Cache-Hierarchien 
dar. Cache-Kohärenz bedeutet die 
Wahrung der Gültigkeit der Inhalte 
der Caches. Wird beispielsweise ein 
Wert aus dem Arbeitsspeicher von 
beiden Prozessoren in den jeweils 
eigenen Cache geladen und von ei- 
nem der Prozessoren anschließend 
(verändert) wieder zurückgeschrie- 
ben, muss der zweite Prozessor von 
diesem Vorgang etwas mitbekom- 
men, um seine eigenen Caches ent- 


sprechend zu aktualisieren. 


SMP-Systeme haben hierfür ein 
sogenanntes Cache-Kohärenz-Pro- 
tokoll, welches für die Korrektheit 
der Daten sorgt. Das traditionelle 
Protokoll dafür ist das sogenannte 
MESI-Protokoll. Jeder der Buch- 
staben steht hierbei für einen be- 
stimmten Zustand einer Cache-Line 
(siehe Extrakasten rechts). Die Er- 
haltung der Korrektheit der Daten 
kostet jedoch ein klein wenig Per- 
formance, was je nach Umsetzung 
des Protokolls unterschiedlich gra- 


vierend ausfallen kann. 


Cache-Protokolle 

Eine Erweiterung des MESI-Proto- 
kolls stellt das MOESI-Protokoll dar. 
Es ist zum MESI-Protokoll voll kom- 
patibel, kennt jedoch den zusätzli- 
chen Status „Owner“. Dieser zeigt, 


in welchem Cache welches Prozes- 


sors sich die aktuell gültigen Daten 
befinden. Somit können andere Pro- 
zessoren diese bei Bedarf aus dem 
Cache anfordern und sparen sich 


den Hauptspeicherzugriff. 


MOESI-Funktion 

Hierbei passiert Folgendes: Stellt 
CPU 1 eine Leseanforderung (Read- 
Request) auf einen bestimmten 
Speicherbereich, so wird dieser in 
der Regel direkt aus dem Arbeits- 
speicher in den Cache der CPU 
geladen. Merkt die interne Logik je- 
doch, dass eine weitere CPU genau 
diesen Speicherbereich bereits im 
Cache hat, so wird der Read-Request 
vom langsamen Arbeitsspeicher auf 
den schnellen Cache der betreffen- 
den CPU umgeleitet. Somit werden 
massiv Taktzyklen eingespart. Auch 
der Speicherbus profitiert, da we- 
niger Zugriffe auf den Speicherbus 
stattfinden und er somit für andere 


Aufgaben verfügbar ist. 


NUMA 


Was bei zwei Kernen bzw. Prozesso- 
ren noch überschaubar erscheint, 
gerät bei acht Kernen bzw. Pro- 
zessoren zu einem aufwendigen 
und bremsenden Durcheinander. 
Ab einer gewissen Komplexität ist 
das System hauptsächlich damit 
auf Cache-Abgleiche 
zu warten. Ein Ausweg ist das 
ccNUMA-Modell („Cache coherent 


Non-Uniform Memory Access‘), in 


beschäftigt, 


dem es einerseits für das Betriebs- 
system zwar einen gemeinsamen 
Speicherbereich gibt, andererseits 
aber versucht wird, Daten mög- 
lichst lokal zu halten, um Overhead 


damit schon im Keim zu ersticken. 


Software 

Vor allem aber sind die Software-Ent- 
wickler gefragt. Diese müssen die 
Programmstrukturen so gestalten, 
dass mehrere Threads oder Prozesse 
unabhängig voneinander arbeiten. 
Dies ist aber gerade bei Spielen eine 


enorme Herausforderung. 


Prozessor 


Welche Bedeutung das 
M(OJESI-Gacheprotokoll hat 


Das MESI-Protokoll sorgt dafür, dass Daten im Arbeitsspeicher kon- 
sistent bleiben - andernfalls könnte es passieren, dass Prozessor 1 
Daten liest, verrechnet und erneuert, während Prozessor 2 mit den 
alten, falschen Daten weiterrechnet. Dabei werden folgende Zustände 


unterschieden. 


Modified 


Der Inhalt im Arbeitsspeicher wurde seit dem Spiegeln in den lokalen 
Prozessorcache modifiziert und stimmt somit nicht mehr überein. 


Owner 


Ähnlich wie Modified mit dem Unterschied, dass es nicht nur eine, son- 
dern mehrere Cache-Kopien gibt, die aktualisiert werden müssen. 


Exclusive 


Der Inhalt im Arbeitsspeicher stimmt noch mit dem gespiegelten Inhalt 
im Cache überein. Die Cache-Line befindet sich nur im Cache eines 


einzelnen Prozessors. 


Shared 


Wie Exclusive - mit dem Unterschied, dass sich die Cache-Line in 
mehreren Caches befindet. Bei Aktualisierung der ursprünglichen Da- 
ten im Arbeitsspeicher werden alle Caches auf den neuesten Stand 


gebracht. 


Invalid 


Der Inhalt im Prozessorcache ist ungültig, ein Zugriff erzeugt einen 
Cache-Miss. Die Daten müssen neu aus dem RAM geladen werden. 


Wie die NUMA-Architektur 


aufgebaut ist 


Seit der Nehalem-Generation hat Intel mehrstufige NUMA-Strukturen 
bis hinab zu SMT integriert, um die Lokalität von Daten optimal nutzen 


zu können. 


Domain 


Gruppe 


SMP- NUMA- 
Domainen Domaine 


HT- 
Domainen 


CPU 
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Bild: Intel 


Bild: Intel 


Prozessor 


Von SMP zu SMT: 


Multi- und Hyper-Threading 


Hyper-Threading soll die Funktionseinheiten moderner CPUs besser auslas- 
ten. Bis heute klappt das im Alltag aber nicht immer 


SKL Core Microarchitecture at a Glance 


Segment optimization 

* Dedicated server and chent IP configurations 
Improved front-end 

+ Higher capacity, improved Branch Predictor 

+ Wider instruction supply with deeper butters 


More load/store bandwidth 

+ Prefetcher improvements 

* Deeper store buffer, fill buffer and write-back buffer 
+ Improved page miss handling 

< Better L2 cache miss bandwidth 


« Faster prefetch + Newinstructions for better cache management 
Deeper Out-of-Order buffers Improved Hyper-Threading 

* Extract more instruction parallelism * Wider retirement 

Improved execution units 

« Shorter latencies 


` More units 

* Power down when notin use 

» Speedup of AES-GCM and AES-CBC by 17% and 
33% accordingty 


Auch wenn es nicht den Anschein hat: Intel optimiert Hyper-Threading kon- 
tinuierlich weiter. Zuletzt spendierten die Entwickler der Skylake-Architektur 
ein breiteres Frontend, wodurch auch das Leistungsplus wächst 


Ein zeitgenössischer Benchmark war der Cinebench: Er zeigte, was theore- 
tisch mit SMT möglich war - durch die Aufteilung in mehrere Threads konn- 
ten CPUs deutliche Leistungsvorsprünge verbuchen 
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ymmetric Multiprocessing 
v VEER und Multitasking blieben 
nicht die einzigen Techniken, um 
Prozessoren besser auszulasten. 
Eine weitere ist das Simultaneous 
Multi Threading (SMT), welches 
versucht, mit möglichst wenigen 
zusätzlichen Ressourcen die Einhei- 


ten der CPU besser zu beschäftigen. 


Multi-Threading 

SMT ist nicht neu; schon für AL 
pha-Prozessoren wurde diese Tech- 
nik in den 1990er-Jahren entwickelt, 
kam dort aber nicht mehr zum 
Einsatz - die Entwicklung des Pro- 
zessors wurde vorher eingestellt. 
So wurde SMT im Wesentlichen 
durch Intels Pentium 4 bekannt, 
der ab 2002 entsprechende Einhei- 
ten mitbrachte. Vermarktet wurde 
das Feature unter dem Namen „Hy- 
per-Threading (HT). 


Der Clou an HT bzw. SMT ist nun, 
die Vorteile von SMP-Systemen 
auf nur einen Prozessor zu übertra- 
gen, zumindest teilweise. Bei akti- 
viertem HT gaukelt der Prozessor 
dem System einfach zwei CPUs vor, 
obwohl physisch nur eine vorhan- 
den ist. Das Betriebssystem glaubt, 
zwei Prozessoren gefunden zu ha- 
ben und verwaltet das System wie 
ein echtes Mehr-Prozessorsystem. 
Mit optimiertem Code können sich 
drastische Leistungssteigerungen 
einstellen; bei Single-Threaded-Soft- 
ware passiert jedoch gar nichts, in 
Einzelfällen arbeiten Hyper-Threa- 
ding-CPUs - genau wie SMP-Syste- 


me - sogar langsamer. 


Um einem Betriebssystem zwei logi- 


sche CPUs bereitstellen zu können, 


lassen die Entwickler verschiedene 
Bauteile im Kern auf verschiedene 
Arten teilen (shared), replizieren 
(replicated) und splitten (partiti- 
oned). Der Level-1- und -2-Cache 
dient beiden logischen Prozesso- 
ren (LPs) gleichermaßen als Puffer. 
Das hat den Vorteil, dass Daten, 
die in beiden LPs verarbeitet wer- 
den müssen, schnell und bequem 
erreichbar sind. Auf echten Mul- 
ti-Prozessorsystemen mit separaten 
Caches für jede CPU wird das Sys- 
tem ausgebremst, wenn Code verar- 
beitet wird, dessen Daten für beide 
Prozessoren relevant sind, wie wir 
es im vorhergehenden Abschnitt ja 


ausführlich beschrieben haben. 


Andere Bauteile dagegen, wie etwa 
der Re-Order-Buffer, werden paral- 
lel und geteilt verwendet. Andere, 
deren reale Bauteile ohnehin mehr- 
fach vorhanden sind, werden kur- 
zerhand repliziert. Darunter fällt 
zum Beispiel die Einheit für das Re- 
gister-Renaming oder der Instructi- 


on Pointer in der I-Fetch-Unit. 


Software 

Die Voraussetzungen, damit eine 
Software auch in der Praxis von 
SMT profitiert, sind dieselben wie 
beim SMP: Es müssen mindestens 
so viele Arbeitsprozesse bzw. Ar- 
beitsthreads existieren, wie Prozes- 
soren vorhanden sind. Das zu reali- 
sieren, fällt in das Aufgabengebiet 
der Programmierer und der Com- 
piler. Wenn das nicht der Fall ist, 
steht ein Prozessor still, während 
der andere unter Volllast arbeitet. 
Außerdem bringt es nichts, einen 
bereits voll ausgelasteten Prozessor 
mit zusätzlichen (SMT-)Aufgaben 
zu beladen. In der Regel haben die 
Prozessoren aber genug „Leerlauf“, 


um weitere Befehle auszuführen. 


Probleme ... 
Tatsächlich bemühten sich nach 
einer Anlaufphase nicht nur An- 


wendungs-, sondern auch Spie- 


leentwickler, die virtuellen Kerne 
gewinnbringend einzusetzen. Dies 
führte bei entsprechendem Res- 
sourcenaufwand zu vorzeigbaren 
Ergebnissen: Anno 1404 lief bei- 
spielsweise mit aktivem SMT spür- 


bar flüssiger als ohne. 


Weit häufiger ergab sich aber über- 
haupt kein Vorteil und - schlimmer 
noch - manchmal sogar eine deut- 
liche Leistungseinbuße. Trotz des 
positiven Anno-Beispiels waren be- 
sonders Spiele lange Zeit von dieser 
Problematik betroffen und auch 
Optimierungsversuche über den 
Grafiktreiber seitens Ati (damals 
noch eigenständig) sowie Nvidia 


konnten keine Abhilfe schaffen. 


„.. und Lösungen 

Eine Ursache war, dass die bei der 
Einführung von Multi-Threading 
verfügbaren Desktop-Betriebssyste- 


me zu wenig mit den zusätzlichen 


Ressourcen anzufangen wussten. 
Im Jahr 2002 kümmerte sich zumin- 
dest kein Desktop-Windows-Sche- 
duler um die optimale Verteilung 
mehrerer Prozesse. So kam es häu- 
fig vor, dass sich ressourcenhungri- 
ge Threads in einem Prozess um die 
geteilten oder partitionierten Ein- 
heiten „streiten“ mussten, während 
andere Prozesse noch genügend Re- 
serven hatten. Erst mit Windows 7 
schuf Microsoft eine spürbare Ver- 
besserung. Hier hielt ein neues Fea- 
ture Einzug, das die Verteilung von 
Threads besser managen konnte und 


als „SMT Parking“ bekannt wurde. 


SMT Parking 

Das aus „Core Parking“ hervorge- 
gangene SMT Parking sorgt dafür, 
dass Threads nicht mehr ständig 
scheinbar wahllos zwischen den 
virtuellen Prozessoren hin- und her- 
springen, sondern versucht statt- 


dessen, den Ressourcenhunger der 


Threads an die Leistungsfähigkeit 
der (virtuellen) Prozessorkerne an- 
zupassen. Das klappt auch sehr gut 
und man kann SMT mittlerweile in 


der Regel aktiviert lassen. 


Der 


auch bei 


Mechanismus funktioniert 


„echten“ Mehrprozes- 
sor-Systemen. Der Wechsel zu ei- 
nem anderen Prozessor in einem 
anderen Sockel hat nämlich zur 
Folge, dass auch alle zugehörigen 
Threaddaten in den anderen Spei- 
chercontroller übertragen werden 
müssen, was Performance kosten 
kann. Dies wird durch SMT Parking 


unterbunden. 


Andere SMT-Lösungen 

Ziemlich genau 15 Jahre lang gab es 
SMT bei x86-Prozessoren exklusiv 
bei Intel - AMD hatte keine entspre- 
chende Technik im Angebot. Ande- 
re Prozessorarchitekturen aber sehr 


wohl! IBM beispielsweise hatte mit 


Prozessor 


dem Power 5 eine entsprechende 
SMT-CPU im Programm. 


Seit 2017 können aber auch Käu- 
fer einer AMD-CPU in den Genuss 
von Multithreading kommen. Ver- 
schiedene Einheiten müssen sich 
bei Ryzen und Co. die einzelnen 
Threads teilen - so zum Beispiel 
die Rename-Units, die TLBs oder 
die Load-Queue sowie natürlich die 
Ausführungseinheiten selbst. Ande- 
re, wie die Mikro-Op-, Store- oder 
Retirement-Queue, werden statisch 


aufgeteilt. 


Bei der Verteilung der Ressourcen 
CPU-Algorithmus, 


welcher Thread am „hungrigsten“ 


ermittelt ein 
ist und gewährt diesem entspre- 
chend Priorität - dies aber nur bei 
wirklich  performance-kritischen 
CPU-Einheiten. In der Praxis funk- 
tioniert die AMD-Lösung sehr gut 


und bringt messbare Vorteile. 


Hyper-Threading am Beispiel des Intel P4 


Intel unterscheidet drei Arten, wie die Bauteile der CPU für zwei LPs verwaltet werden: shared, replicated und partitioned. Im Bild ist die ursprüngliche 
Aufteilung der Funktionseinheiten im Pentium 4 zu sehen; bei späteren Implementierungen stellte Intel weniger detaillierte Informationen zur Verfügung 
und bis heute ist unklar, wie genau die Technik bei Nehalem und späteren Architekturen umgesetzt wurde. 
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Mit Hyper-Threading lassen sich sowohl der Core als auch die Anbindung des Pentium effizienter auslasten, sofern die Technik von der Software unterstützt wird (Darstellung: Intel). 


Shared 


Gemeinsam genutzte 


Partitioned 


(„shared“) Einheiten: 


Caches 


Out-of-order execution 


engine 


Geteilte („partitioned“) 
Einheiten: 


Re-order buffers 
Load/Store buffers 
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Renaming Logic 
ITLB/Return Stack 
Predictor 
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Bild: Intel 


Prozessor 


Das Beste aus beiden Wel- 
ten: Mehrkern-Prozessoren 


Intels erste Desktop-Version einer Mehrkern-CPU wirkte fast dilettantisch: 
Fachleute rümpften die Nase über die zwei Kerne, die scheinbar schlicht 
„aneinandergeklebt“ wurden (hier: Pentium 4 Presler) 


Wahnsinn oder konsequente Weiterentwicklung? Intels Broadwell-E (Bild) 
bringt bis zu 10 Kerne (und zusätzlich Hyper-Threading!), Skylake-X gar 18. 
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H= Threading war ein gut 
gemeinter Versuch, die Aus- 


lastung moderner Prozessoren zu 
steigern und brachte in Einzelfäl- 
len, etwa beim Transkodieren von 
Filmen, tatsächlich ordentliche Leis- 


tungssteigerungen. 


In der Regel ist SMT aber selbst bei 
aktuellen Prozessoren kaum mehr 
als ein nettes Zubrot: Schön zu ha- 
ben, aber ohne durchschlagende 
Performance-Relevanz. Einen ech- 
ten Durchbruch im Desktop-Be- 
reich erlebte die Idee mehrerer Pro- 
zessoren erst mit den sogenannten 


„Multicore-CPUs“. 


Multicore-CPUs 

Multicore-Prozessoren vereinen im 
Prinzip die Vorteile von SMP und 
SMT: 


gebündelt auf möglichst kleiner 


viele Prozessorressourcen, 


Chipfläche. Im Gegensatz zu SMP 
sind nicht länger mehrere Sockel 
nötig, selbst vier oder mehr Kerne 
lassen sich platzsparend und eini- 
germaßen kühl auf einem gemein- 
samen Siliziumplättchen betreiben 
- und solche CPUs passen zudem 
handelsübliche Desk- 


top-Board, ohne teure Zusatzkom- 


auf jedes 


ponenten verbauen zu müssen. 


Trotzdem bleibt die volle Rechen- 
leistung erhalten, da alle perfor- 
mancekritischen Einheiten tatsäch- 
lich doppelt vorhanden sind: ALUs, 
Caches, Puffer; Sprungvorhersagen 
usw. sind alle ohne Einschränkun- 
gen für Prozesse und Threads nutz- 


bar. 


Möglich wurde das durch immer 


feinere Fertigungsprozesse, die 


Transistorzahlen im Milliardenbe- 
reich bei gleichzeitig moderater 
Wärmeentwicklung erlaubten. 
Mittlerweile ist es sogar üblich, bei 
Multicore-Prozessoren zusätzlich 
SMT einzusetzen - wenngleich dies 
meist den teureren Modellen vorbe- 


halten bleibt. 


Aktueller Stand sind vier bis acht 
Kerne pro Prozessorsilizium, bei 
dem offenbar der beste Kompro- 
miss aus Performance-Gewinn und 
Transistorzahl zu liegen scheint 
- und das übrigens nicht nur im 
x86-Lager. Auch ARM-Prozesso- 
ren, wie wir sie in Smartphones, 
NAS-Servern oder Tablets finden, 
arbeiten in der Regel mit einer ähn- 


lichen Kernzahl pro Chip. 


Im Oberklassesegment sind aktuell 
aber auch bis zu 18 Kerne verfüg- 
bar. Doch warum kann man nicht 
einfach beliebig viele, zusätzliche 
Prozessorkerne auf den Sockel pa- 


cken? 


Einschränkungen 

Egal ob SMT, SMP oder eine Mi- 
schung aus beidem - ein grundsätz- 
liches Problem bleibt bestehen. Bei 
grafisch intensiven Anwendungen 
wie 3D-Spielen kann es zum Bei- 
spiel vorkommen, dass die Perfor- 
mance eines Computers sinkt, je 


mehr Prozessoren man hinzufügt. 


Einen Grund haben wir schon bei 
SMP kennengelernt: Stillstände des 
Prozessors können immer dann vor- 
kommen, wenn die externen Res- 
sourcen überbeansprucht werden 
- denn die sind ja nicht beliebig ska- 
lierbar. Zwar lassen sich theoretisch 
auch Grafikkarten (Quad-SLI) oder 
Festplatten (RAID) mehrfach parallel 
betreiben, doch auch das würde ir- 


gendwann nicht mehr weiterhelfen. 


Denn der zweite und wichtigere 
Grund für eine „Kern-Barriere“ 


liegt an anderer Stelle: der Software. 


Diese lässt sich zwar in Grenzen in 
einzelne, voneinander unabhängi- 
ge Teile (Threads) aufteilen - aber 


eben nicht beliebig weit. 


Amdahl‘s und 
Gustafson‘s Gesetze 
Programmcode ist nicht beliebig 
zerlegbar, und das aus einer ganzen 
Reihe von Gründen. Einer der wich- 
tigsten ist, dass es bestimmte Vor- 
gänge gibt, die sich nicht zerlegen 
lassen und immer nur einmal aus- 
gelöst werden. Dazu gehört etwa 
die Speicherverwaltung eines Pro- 
zesses. Selbst wenn der nicht paral- 
lelisierbare Teil eines Programmes 
nur winzig ist, so sorgt er dennoch 
dafür, dass das Programm immer 
wieder zur Synchronisierung an- 
gehalten werden muss - ganz egal, 
wie viele Kerne oder Prozessoren 
im Rechner stecken. Diese Gesetz- 
mäßigkeit wurde schon 1967 postu- 
liert und heißt nach nach seinem 


geistigen Schöpfer „Amdahl‘s law“. 


Mittlerweile sind die Datenstruk- 
turen aber deutlich flexibler ge- 
worden und das Gesetz erfuhr 
einige Änderungen, die John L. 
Gustafson 1988 in Anlehnung an 
Gene Amdahls Regel formuliert hat. 
„Gustafson‘s law“ ist optimistischer 
und sieht selbst bei mehr als 100 
Prozessoren bzw. Kernen noch Per- 
formance-Steigerungen, sofern der 
Code parallelisierbar ist - allerdings 


nur geringe (siehe Grafiken rechts). 


Code-Probleme 

und Spezialfälle 

Beide Gesetze zeigen aber, dass 
eine lineare Steigerung zumindest 
im Desktop-Bereich relativ uto- 
pisch ist. Zehn Kerne werden bei 
normalen Anwendungen niemals 
die zehnfache Performance eines 
einzelnen Kerns bringen. Dazu 
gibt es - gerade bei Spielen - viel 
zu viele Abhängigkeiten innerhalb 
des Codes, ein weiterer Grund, wa- 


rum sich Programme nicht beliebig 


klein teilen lassen. Spätestens dann, 
wenn eine zeitkritische Unterrouti- 
ne aufgerufen wird, etwa die Aus- 
gabe des nächsten Frames, müssen 
alle anderen performancerelevan- 
ten Engine-Teile wieder synchron 


sein. 


Wirklich (annähernd) optimal zer- 
legbare Aufgaben werden dagegen 
ohnehin lieber auf der Grafikkarte 
durchgeführt - diese ist mit ih- 
ren tausenden Recheneinheiten 
deutlich besser für solche Berech- 
nungen geeignet. Zu den sehr gut 
parallelisierbaren Aufgaben zählen 
beispielsweise viele KI-Probleme, 
etwa Deep-Learning-Algorithmen, 
welche die immer gleichen Code- 
pfade auf Millionen und Milliarden 
von sich ändernden Daten anwen- 
den müssen. So ließ etwa Google 
vor einigen Jahren die komplette 
Youtube-Datenbank mit knapp 
zehn Millionen Standbildern von 
mehr als 16.000 Prozessoren durch- 
forsten und klassifizieren. Teilwei- 
se wurden dazu GPUs verwendet, 
mittlerweile hat der Suchgigant 
sogar eigene, massiv parallele KI- 
Chips entwickelt. 


Multicore-Designs 

Es gibt eine ganze Reihe von Mög- 
lichkeiten, wie genau die CPU-Ent- 
wickler zwei oder mehr Kerne auf 
ein gemeinsames Substrat packen 
können. In der ersten und einfachs- 
ten Variante „klebten“ Intel-Inge- 
nieure einfach zwei Kerne auf ein 
gemeinsames Substrat - fertig war 
der Doppelkern-Prozessor. Obwohl 
durch dieses Design viel Leistung 
verschenkt wurde, erreichten sol- 
che Prozessoren dennoch neue 
Bestmarken in Benchmarks, zumin- 
dest jenen, die eine Aufteilung in 
Threads vorsahen. Schon bald aber 
ging man zu „vollwertigen“ Designs 
über. Zwei oder mehr Kerne wur- 
den von Anfang an als gemeinsame 
Einheit konzipiert und später auf die 
Wafer geätzt. 


Prozessor 


Warum zu viele Kerne die 
Leistung bremsen können 


Ist der Programmcode an einer Stelle nicht parallelisierbar, helfen auch 
Dutzende von Prozessoren kaum weiter. Selbst bei 95-prozentiger 
Parallelisierbarkeit erreicht man mit acht Kernen nur einen Geschwin- 
digkeitszuwachs von rund 500 Prozent - jedenfalls in Amdahls Darstel- 
lung (unten). Aktuelle CPUs mit vier bis acht Kernen scheinen hier am 
Scheitelpunkt angekommen zu sein, denn auch die Kurve gut paralleli- 
sierbaren Programmcodes flacht oberhalb von vier Kernen spürbar ab. 
Diese Gesetzmäßigkeit formulierte Computerarchitekt Gene Amdahl 
bereits 1967 - sie ist heute aktueller denn je und als „Amdahl‘s Law“ 
bekannt. 


Theoretisch mögliche Gewinne durch zusätzliche Prozessoren 


Parallelisierbarer Code-Anteil 
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Anzahl der Prozessoren/Kerne 


Ende der 1980er-Jahre nahm sich der zwischenzeitlich auch bei AMD 
beschäftigte IT-Wissenschaftler John L. Gustafson die Regel noch 
einmal vor. Vereinfacht gesagt, geht Gustafson immer nur von ein- 
zelnen Aufgaben aus, etwa der Darstellung eines einzelnen Frames. 
Beschränkt man die Aussage auf nur diese eine Aufgabe, so könnten 
tatsächlich auch mehrere Dutzend Prozessoren noch einen Gewinn 
bringen - im Falle eines Spiele-Frames beispielsweise, wenn eine 
enorm hohe Polygonzahl vorhanden ist. 


Theoretisch mögliche Gewinne durch zusätzliche Prozessoren, 
gemessen an einer einzelnen Aufgabe 
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Grafikkarte 


Die GPUs aktueller Grafik- 
karten sind so leistungsfähig, 
dass sie nicht mehr nur für 
Spiele eingesetzt werden, 
sondern immer häufiger auch 
für Anwendungen 


Aktuelle High-End-Grafikkarten 
sind vor allem auf schnellen Spei- 
cher angewiesen; üblich sind bis 
16 GiByte GDDR5-Speicher mit 
bis zu 7 GHz Taktfrequenz 


6P102-350-K1-A1 
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V: mehr als 20 Jahren begann 
die Ära der 3D-Beschleuniger, 


einfacher Zusatzkarten, welche die 
Grafik der damaligen Spiele auf eine 


neue Ebene hievten. 


Erste GPU 


Nach den ersten, eher experimen- 
tellen 3D-Beschleunigern Mitte der 
1990er-Jahre (einzig der Voodoo-1- 
Chip von 3dfx war voll spieletaug- 
lich) erschien mit Nvidias Geforce 
im Herbst 1999 die erste „Graphics 
Processing Unit“ (GPU), ein Grafik- 
chip, der nicht nur texturieren, son- 
dern auch Polygone transformieren 
und beleuchten konnte - die CPU 
hatte somit eine Aufgabe weniger 
zu bewältigen. Mittlerweile ist die 
Komplexität wesentlich gestiegen. 
Doch wie funktioniert dieses kom- 
plizierte Stück Technik und was ist 
die Aufgabe von Jedi-Geheimein- 
heiten wie den ROPs oder der Poly- 
morph-Engine? 


Grafikkarten - viel drauf 
Die zweifellos wichtigste Kom- 
ponente einer Grafikkarte ist der 
Grafikprozessor, auch als Grafikchip 
oder kurz GPU, analog zur CPU, be- 
zeichnet. Dieser übernimmt sämtli- 
che Berechnungen, die für die Gra- 


fikausgabe notwendig sind. 


Unterstützt wird er von diversen 
anderen Bauteilen wie der Plati- 
ne selbst, den Spannungswand- 
lern samt Stromzufuhr und na- 
türlich dem Grafik- oder auch 
Videospeicher (V-RAM). Für eine 
verständliche Erklärung der Grafik- 
chip-Funktionen müssen wir auch 
darüber zunächst einige Worte ver- 


lieren. 


Die Platine der 
Grafikkarte 

Das sogenannte Printed Circuit 
Board („PCB“), also die Platine, in 
der die Leiterbahnen eingelassen 
sind, stellt das Mainboard der Gra- 
fikkarte dar. Hierüber findet der 
komplette Datenverkehr ebenso 
statt wie die Erzeugung und Regu- 
lierung der benötigten Spannungen 
für den Grafikchip und seinen Spei- 
cher, die Ansteuerung der Monito- 
ranschlüsse sowie die Verbindung 
mehrerer Grafikchips für SLI- oder 
Crossfire-Systeme. 


Je schneller und damit meist auch 
stromhungriger eine Grafikkarte 
ist, desto komplizierter und damit 
auch teurer fällt das PCB der Kar- 
te aus. Die bis zu 4.096 Datenlei- 
tungen, mit denen der Speicher an 
den Grafikprozessor angebunden 
ist, sind in mehreren Lagen inner- 
halb des PCB untergebracht, sodass 
High-End-Modelle mitunter 12- oder 
gar 14-schichtige Platinen benöti- 
gen, was wiederum die Kosten bei 


der Produktion in die Höhe treibt. 


Unter Spannung 

Ähnliches wie für das Board selbst 
gilt auch für die Spannungsversor- 
gung bzw. die VRMs, was im Eng- 
lischen für „Voltage Regulator Mo- 
dules“ steht. Die VRMs wandeln die 
Zufuhr aus den 3,3- und 12-Volt-Lei- 
tungen des Netzteils in die nötigen 
Spannungen um und werden aus 
dem PCI-Express-Steckplatz selbst 
gespeist, über den 3,3 und 12 Volt 
mit insgesamt maximal 75 Watt 


(inkl. Toleranz) laufen. 


Zusätzlich gibt es direkte Anschlüs- 
se an das Netzteil. Die sechsadrige 
Variante liefert dabei ebenfalls 75 
Watt; befinden sich acht Kabel am 
Steckerschuh, sind bis zu 150 wei- 
tere Watt möglich. Die Anzahl der 
Stromanschlüsse lässt auf den unge- 
fähren (!) Stromhunger der Grafik- 
karte schließen: 


I Bis 75 Watt 
(kein Extrakabel) 
175 bis 150 Watt 
(1x 6-PoD) 
1150 bis 225 Watt 
(2x 6- oder 1x 8-Pol) 
1225 bis 300 Watt 
(1x 6- + 1x 8-PoD 


Je leistungsfähiger der Grafikchip, 
desto wichtiger ist eine gute, das 
heißt möglichst störungsfreie Ver- 
sorgung mit der von ihm benötigten 
Spannung. Diese liegt für aktuelle 
Grafikchips in der Regel zwischen 
0,7und 1,1 Volt und muss sehr 
schnell hin- und hergeschaltet wer- 
den, wenn der Grafikchip zwischen 
den verschiedenen Stromsparmodi 


hin- und herwechselt. 


Auch die hohen Stromstärken von 
zum Teil über 100 Ampere müssen 
in Sekundenbruchteilen an die je- 
weils herrschenden Lastzustände 
angepasst werden können und da- 
bei weite Bereiche überbrücken. 
Nicht selten sind achtphasig ausge- 
legte VRMs nötig, spezielle Übertak- 
terkarten für Overclocking-Fans set- 
zen auf eine noch höhere Anzahl an 
(Doppel-)Phasen. Das treibt direkt 
und indirekt über zusätzlich nöti- 
ge Platinenbreite die Kosten in die 
Höhe. 


Anschluss gesucht 

Über den heute üblichen PCI-Ex- 
press-Anschluss gelangen die Daten 
zur Grafikkarte. Der üblicherweise 
mit 16 parallelen Leitungen verbun- 
dene Grafikkartensteckplatz (auch 
als PEG, „PCI-Express for Graphics“, 
bezeichnet) kann gleichzeitig Da- 
ten senden und empfangen und pro 
Richtung aktuell bis zu 16 GByte 
übertragen (PCIE 4.0). 


Stehen weniger parallele Bahnen 
(engl. „Lanes“) zur Verfügung, sinkt 
die Transferrate entsprechend - al- 
lerdings reagieren nur die wenigs- 


ten Spiele mit Fps-Verlusten auf ei- 


nen Betrieb mit beispielsweise acht 
PCI-E-Lanes. 


RAM 

Im Grafikspeicher werden (nach 
Möglichkeit) sämtliche Daten zwi- 
schengelagert, die zur Anzeige des 
Bildes nötig sind. Zwar befinden 
sich schnelle Zwischenspeicher 
(Caches) direkt im Grafikprozessor, 
oft genug jedoch muss auf Daten 
aus dem Hauptspeicher der Grafik- 


karte zurückgegriffen werden. 


Für diese Fälle wird der RAM beson- 
ders bei High-End-Karten so schnell 
wie möglich ausgelegt und auch 
über viele parallele Datenleitungen 
mit dem Chip verbunden. Das wie- 
derum kostet Platz und damit Geld 
- wie auch die Speicherchips selbst. 
Aktuell sind folgende Speicherstan- 
dards mit den angegebenen Takt- 


raten gebräuchlich: 


I HBM(2) (bis ca. 1.000 MHz) 
I GDDR5X (bis ca. 5.700 MHz) 
I GDDR5 (bis ca. 4.500 MHz) 
I GDDR6 (bis ca. 7.750 MHz) 


GDDR4 kam zwischenzeitlich auf 
einigen Radeon-Karten zum Ein- 
satz (HD-3800-Reihe aus dem Jahr 
2007), konnte sich aber nicht 
durchsetzen, da GDDR3-RAM den 
Taktnachteil schnell eingeholt hat- 
te. Alte Grafikkarten nutzen oft 
DDR2- oder (G)DDR3-Speicher - 
kommt ein solches Modell in die 
engere Auswahl, achten Sie auf GD- 
DR5-Bestückung. 


Grafikchip im Detail 

Auf den folgenden Doppelseiten 
stellen wir exemplarisch die Funk- 
tionsweise eines aktuellen Gra- 
fikchips vor und beschreiben an- 
schaulich, welche Bedeutung die 
jeweiligen Baugruppen für die ein- 
zelnen Aufgaben in Spielen haben. 
Auf den dann folgenden Seiten er- 
läutern wir alle wichtigen Funkti- 


onseinheiten noch detaillierter. 


Grafikkarte 


Worin sich Grafikchip und 
Prozessor unterscheiden 


Prozessoren werden grundsätzlich mit dem Ziel entwickelt, die unter- 
schiedlichsten Aufgaben möglichst schnell auszuführen. Die unzähli- 
gen Erweiterungen des ursprünglichen x86-Befehlssatzes sind dafür 
ebenso ein Instrument wie die enorm hohe Taktfrequenz von vier Giga- 
hertz und mehr. 


Grafikkarten dagegen arbeiten vergleichsweise langsam - der Takt des 
Chips beträgt „nur“ rund 1,2 bis 1,9 Gigahertz und die Einsatzgebiete 
sind eng gesteckt. Dafür können mehrere hundert Rechenoperationen 
pro Takt durchgeführt werden, während es bei Prozessoren gerade mal 
eine Handvoll ist. 


Grafikchips („GPUs“) und Prozessoren („CPUs“) werden manchmal 
auch mit Flugzeugen verglichen. Dabei sollen Prozessoren schnellen 
Düsenjets entsprechen, die einen oder zwei Reisende blitzschnell an 
einen anderen Ort bringen können. GPUs sind dagegen vergleichbar 
mit Passagierflugzeugen, die deutlich länger für die gleiche Strecke 
brauchen, dafür aber sehr viel mehr Passagiere gleichzeitig transpor- 
tieren können. 
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Ausführliche Darstellung auf Seite XX 


Auf Tuning getrimmte Grafikkarten ver- 
fügen für ein besseres Overclocking- 
ff | Potenzial über zusätzliche Phasen der 
Ir ddi Spannungsversorgung. 
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Grafikkarte 


Die Grafikkarten-Bauteile im Detail 


Grafikchip 


Der Grafikprozessor ist das 
Herzstück einer jeden Grafik- 
karte. Ohne ihn fände keine 
einzige Berechnung statt, 

das Bild bliebe aus. Moderne 
Grafikchips entstammen 

den Familien Turing (Nvidia) 
und Navi (AMD) und werden 
im sogenannten FinFET- 
Fertigungsprozess herge- 
stellt. Der aktuelle Top-Chip 
für Spieler-Grafikkarten ist 
Nvidias TU102, welcher 18,6 
Milliarden winzig kleiner Tran- 
sistoren auf 471 Quadratmil- 
limeter quetscht. Damit kann 
er nicht nur rund 510.000.000 
Pixel pro Sekunde texturieren, 
sondern auch mit gut 42 Milli- 
arden Dreiecken pro Sekunde 
hantieren. Für moderne Spiele 
und angepasste Applikationen 
ist jedoch die Rechenleistung 
der arithmetisch-logischen 
Einheiten, kurz ALUs, von 
besonderem Interesse. Hier 
stemmen moderne Grafik- 
karten dank maximal 4.608 
Shader-ALUs mehr als 

16 Tera-FLOPS (Billionen 
Gleitkommaberechnungen 
pro Sekunde) bei einfacher 
Genauigkeit. Zum Vergleich: 
Die 2006 revolutionäre 
Geforce 8800 GTX leistet nur 
0,35 TFLOPS. 
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Display-Ausgänge Platine (PCB) 


Die mächtigste GPU ist - zumindest in einem Spiele-PC - nichts Das Printed Circuit Board, zu Deutsch etwa „bestückte Leiterplatte” 
wert, wenn sie das Bild für sich behält. Damit Sie in den Genuss und kurz PCB, ist das Mainboard der Grafikkarte. Auf ihm nehmen 
der berechneten Ergebnisse kommen, tragen moderne Grafik- alle elektrisch notwendigen Bauteile Platz. Neben der GPU sind das 
karten mehrere Displayport-Ausgänge sowie mindestens einen, unter anderem der Grafikspeicher (aktuell meist GDDR5/6), die für die 
meist mehrere, HDMI-2.0-Ports, um dort Monitore anzuschließen. Spannungsversorgung notwendigen Mosfets, Spulen und Konden- 
Der viele Jahre omnipräsente, hervorstehende DVI-Ausgang ver- satoren, die Strombuchsen sowie zahlreiche weitere Bauteile (u. a. 
schwindet langsam - die Referenzdesigns der RTX 2080 und RX Widerstände), welche unter dem Begriff Surface Mounted Devices 
5700 verzichten beispielsweise längst darauf. zusammengefasst werden. 
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Kühlsystem 


Im Laufe ihrer Existenz stieg die Grafikkar- 
ten-Leistungsaufnahme immer weiter, es schien 
kein Ende in Sicht. Zwischenzeitlich und beglei- 
tet von steigenden Strompreisen sowie wach- 
sendem Umweltbewusstsein fand ein Umdenken 
statt. Moderne Mittelklasse-Modelle begnügen 
sich mit 200 Watt und die High-End-Modelle las- 
sen sich auf höchstens 375 Watt treiben. Alles, 
was an Energie in die Grafikkarte fließt, wird in 
Wärme umgewandelt. Das heißt, jedes zusätz- 
liche Watt ist mit Hitze gleichzusetzen, die es 
möglichst rasch abzuführen gilt. Moderne Kühler 
begegnen der Abwärme einer High-End-Grafik- 
karte mit reichlich Kühlmetall und ausgeklügelten 
„Sandwich”-Designs. 


Wir haben mit der Gigabyte Aorus GTX 1080 
Xtreme Edition bewusst ein Beispiel gewählt, 


das alle Register einer starken Luftkühlung zieht. 
Hierbei handelt es sich um eine 2,5-Slot-Kon- 
struktion, welche den üblichen 3,5 Zentimeter 
breiten Dual-Slot-Rahmen (zwei Einbauplätze) 
sprengt, um die Kühlfläche zu erweitern. Doch 
der Reihe nach. Um die Wärmeableitung des 
Grafikchips und Speichers kümmert sich eine 
mehrere Millimeter dicke Kupferplatte („Base Pla- 
te”), welche wiederum Kontakt zu den Heatpipes 
des eigentlichen Kühlers aufnimmt. Bei Heatpi- 
pes handelt es sich um Kupferrohre, die mit einer 
Flüssigkeit gefüllt sind, welche nach Erwärmung 
verdampft, dadurch die Wärme transportiert, 

an anderer Stelle wieder erkaltet und das Spiel 
von vorne beginnen lässt. Moderne Heatpipes 
verfügen über einen Mindestdurchmesser von 6 
mm, auf leistungsstarken (= heißen) Grafikkarten 
kommen jedoch auch Versionen mit 8 oder gar 


Grafikkarte 


10 mm Durchmesser zum Einsatz. Im Falle unse- 
res Beispiels sind sechs Rohre installiert. 


Die Heatpipes leiten die Wärme von den Hitze- 
quellen weg an die zahlreichen Kühllamellen des 
Kühlerkorpus. Dieser besteht fast immer aus 
Aluminium und hat die Aufgabe, die Wärme an 
die Umgebungsluft abzugeben. Das funktioniert 
am schnellsten durch Luftbewegung, weshalb 
Gaming-Grafikkarten in der Regel über zwei, 
manchmal über drei, Lüfter verfügen. Gigabytes 
Stapeltechnik in unserem Beispiel erlaubt es, 
sogar drei Axiallüfter mit je 100 mm Durchmes- 
ser zu installieren — damit ist ein sehr hoher 
Luftdurchsatz schon bei geringen (= leisen) 
Drehzahlen möglich. Eine Rückplatte aus Kupfer 
komplettiert in unserem Beispiel den Wärmeaus- 
tausch. 


Die Grafikkarte: Vom Tapezierer 
zum Universalrechner 


Anfang der 90er-Jahre des vergangenen Jahrtausends beherrschten Grafikkarten nur 
die Darstellung zweidimensionaler Bilder, bis Mitte der 90er die 3D-Revolution in Form 
von hübsch texturierter Polygongrafik begann. Heutzutage übernehmen Grafikkarten 
in Spielen unzählige Aufgaben und können auch Berechnungen abseits des Gamings 
respektive Grafik übernehmen - etwa Physik, Bildkonvertierung und vieles mehr. 
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Grafikkarte 


Wie eine Grafikkarte funktioniert 


u CX 1111) 


Schnittstelle zum System E? 
(„Host-Interface“) 


Kein noch so fortschrittlicher Grafikchip kann derzeit ohne 
Vorarbeit ein Spiel berechnen. Sämtliche nötigen Daten, 
seien es nun Informationen zum weiteren Spielablauf, die 
der Hauptprozessor liefert, oder Textur- bzw. Geometrie- 
daten zur Darstellung auf dem Bildschirm, müssen durch 
die Schnittstelle zum Wirtsystem, englisch auch „Host“ 
genannt. Über diese Schnittstelle kommt auch der vom 
Grafikkartentreiber in Maschinensprache übersetzte Kom- 
mandostrom, über den der Grafikkarte mitgeteilt wird, was 
als Nächstes zu berechnen ist. 


Darin enthalten sind zum Beispiel auch Shader-Pro- 
gramme für die Pixelbeleuchtung oder Animations- 
berechnung. Zurzeit findet die Kommunikation zwischen 
Grafikchip und dem restlichen PC über die PCI-Ex- 
press-3.0-Schnittstelle statt. Bei voller Bestückung des 
Steckplatzes mit 16 Datenbahnen sind darüber ca. 16 
GByte pro Sekunde und Übertragungsrichtung möglich. 
Zurzeit stellt das Host-Interface keinen nennenswerten 
Flaschenhals dar, solange das Datenaufkommen den 
Grafikspeicher nicht überlastet. 


BIY 

| 

BI | 
(RRERRRRESKNKR 


` Speicher. Conale ` | 
Be E 
Ae, + Texture |] 


Scheduler 


A 


Host-Interface 


11025-1102-C00 


TTT 
VELLBRDEDUGNL 


Wa OTI 


PCI-Express 


Der Vorarbeiter und Organisator („Scheduler“) (2) 


Das Steuerwerk des Chips. Hier werden die anstehenden Aufgaben verwaltet und den einzelnen 
Ausführungseinheiten wie Shader-Kernen oder Textureinheiten zugeteilt. Da es bis zum fertigen 
Pixel meist Dutzende, wenn nicht gar Hunderte von Arbeitsschritten sind, muss sich der Sche- 
duler auch darum kümmern, den Fortschritt der Aufgaben zu protokollieren und teilweise abgear- 
beitete Befehlsketten neu in die Pipeline einzuspeisen. Das kann zum Beispiel passieren, wenn 
im Rahmen eines Direct-X-11-Programms über Geometryshader oder Tessellation zusätzliche 
Dreiecke erzeugt worden sind, die danach im Vertexshader-Programm animiert werden müs- 

sen und schließlich von einem Pixelshader mit der endgültigen Farbe versehen werden. Je nach 
Hardware fasst der Scheduler die pixelbasierten Aufgaben zu sogenannten Threads zusammen - 
Gruppen von Instruktionen, die auf die Shader-, Textur- oder Rastereinheiten aufgeteilt werden. In 
anderen Fällen bekommt er diese Gruppierung bereits vom Treiber aufbereitet serviert. 
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Grafikkarte 


Shadereinheiten #1: 


Seit der mit der Geforce 8800 GTX/S 
eingeläuteten Direct-X-10-Generation 
verfügen alle Grafikchips über einheitliche 
Shader-Einheiten. Diese können, im Ge- 
gensatz zu DX9- oder älteren Grafikkarten, 
jede Art von Shaderprogramm ausführen — 
unabhängig von Geometrie-, Vertex- oder 
Pixelberechnungen. Der Vorteil liegt auf 
der Hand: Der Chip ist flexibler, da immer 
alle Einheiten beschäftigt werden können; 
ob die Spielszene nun sehr dreiecks- oder 
sehr pixellastig ist, spielt keine Rolle. 


Shader-Engine #2: Geometrie 


Bevor die Pixel Pixel werden, haben sie schon einiges hinter sich. In einem ersten Schritt werden Vertices 
eingelesen und durch die Shadereinheiten im Rahmen der Vertex- und bei Direct X 11 der Hullshaderstufe 
berechnet - dabei werden die Koordinaten der Vertices in das System der 3D-Welt umgewandelt. Außerdem wird, 
falls nötig, der Tessellationsfaktor bestimmt, also der Grad der Unterteilung in feinere Geometrie. Diese neuen 
Vertices kommen dann im Falle von Direct-X-11-Tessellation zu der vorgesehenen Hardware und werden dort 
dem zuvor festgelegten Wert entsprechend verfeinert. 


Als Nächstes werden die Domain- (bei DX11) 
und Geometryshaderstufe ausgeführt. In 
Ersterer wird die endgültige Position jedes 
Vertices berechnet, die auf den Werten des 
zuvor durchlaufenen Hullshaders basiert. In 
der Stufe des Geometryshaders wird dabei 
Geometrie hinzugefügt oder entfernt - je 
nach Vorgabe des Shaderprogramms. Da- 
nach folgt die sogenannte Viewport-Trans- 
formation und Perspektivenkorrektur zur 
Darstellung in der 3D-Ansicht. Sollen weitere 
Vertex-basierte Operationen ausgeführt 
werden, so wird das Vertex-Gitter in einen 
Zwischenspeicher geschrieben. 


E 
Setup und Rasterisierung 


In dieser Stufe der Verarbeitung werden aus dem Vertexgitter erstmals echte Vielecke, indem die einzelnen 
Punkte untereinander verbunden werden. Das sogenannte Edge-Setup errechnet die Kanten der späteren 
Polygone. Hier setzt auch die erste Effizienzmaßnahme an: Durch Backface-Culling werden alle Dreiecke 
aus der Verarbeitung entfernt, deren Oberfläche vom Spieler weg zeigt und die deshalb nicht sichtbar 
wären. Der nächste Schritt ist die Rasterisierung. Darunter versteht man das Erzeugen von Pixeln entspre- 
chend der Bildschirmauflösung. Der oder die Rasterizer rechnen aus den Kantengleichungen der Primitive 
nun die Entsprechung in Pixeln innerhalb der Bildschirmauflösung aus - ist Kantenglättung (Multisampling) 
aktiv, wird der Bedeckungsfaktor pro AA-Sample bestimmt, ansonsten einer pro Pixel. In der Regel arbeiten 
Rasterizer 16 Pixel pro Takt ab. Von hier aus geht es über die Z-Culling-Einheit weiter. Diese übernimmt auf 
Pixelebene, was das Backface-Culling auf Dreiecksebene geleistet hat: Die meisten Pixel, die im endgül- 
tigen Bild durch andere verdeckt und daher nicht sichtbar sind, werden von der weiteren Verarbeitung 
ausgeschlossen. 
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Ohne Tessellation ` 


y Ex Prag ’ 


Im Rahmen der 3D-Berechnungen müssen 
die Pixel in spe jetzt allerdings Runden 

drehen und die Shadereinheiten mehrfach 
durchlaufen. Zum Beispiel ... 


e für Geometryshader und Tessellation 
e für den Vertexshader 
e für den Pixelshader 


Speichercontroller 


Diese für die Leistung der Grafikkarte 
elementare Einheit ist meist in mehrere 
Blöcke unterteilt. Sie sorgen dafür, dass 
Textur- und Shadereinheiten möglichst 
schnell mit Daten versorgt werden. 

Eine der wichtigsten Aufgaben der einzel- 
nen Controller ist es, Speicherzugriffe so 
zusammenzufassen, dass möglichst wenig 
Verschnitt entsteht und die in der Regel 
aus 64 parallelen Datenleitungen beste- 
hende Anbindung an die Speicherchips 
effizient ausgelastet wird. 


Shader-Engine #3: Pixel 


Endlich auf Ebene der Pixel angekommen, werden nun die Pixelshader- 
programme über die Shadereinheiten ausgeführt. Die dabei zum Einsatz 
kommenden Effekte sind vielfältig, zumeist aber mit irgendeiner Art von 
Texturen verknüpft. Um die Bereitstellung der Pixel-Tapeten kümmern sich 
die Textureinheiten, auch als TMU (vom englischen „Texture Mapping Unit“) 
bekannt, die bei heutigen Grafikchips meist als Quad-TMU direkt an die 
Shader-Engines angeschlossen sind. Bei Nvidias GP104-Chips teilte sich 
jeder Block von 16 Shader-Einheiten eine TMU. AMDs Cypress-, Juniper- 
und Redwood-Chips weisen ein 20:1-Verhältnis auf, die kleineren Cedar- 
GPUs der Radeon HD 5450 eines von 10:1. Polaris 10 hat ein Verhältnis 
von 16:1. Je mehr dieser Einheiten vorhanden sind und je effizienter sie 
arbeiten, desto weniger lang müssen die Shader auf die benötigten Werte 
warten, bevor sie weiterarbeiten können. 


Raster-Endstufen („ROPs“) 


In die passend benannten Raster-Endstufen gelangen die Pixel bei heutigen 
Spielen erst kurz vor dem Ende ihrer Reise in Richtung Bildschirm. Die auch 
ROPs („Raster Operation Processor“) genannten Einheiten führen für die 
Antialiasing-Leistung und bei Schattenberechnungen wichtige Tiefentests durch 
und sind für das zum Beispiel bei Vegetationsdarstellung häufig genutzte Alpha- 
Blending zuständig. 


Ohne Kantenglättung 
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Wie 3D-Grafik in 
Computerspielen entsteht 


Zei 


1 


rr a 


/ 


RANGE b 


MASNIFICATION 3 HTRH STARF sm 


Arkadespiele der 1980er-Jahre (hier aus einem Battlezone-Derivat) setzten 
meist auf Vektorgrafik 
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ür Spiele, Filme und auch die 
Fo. ist dreidimensiona- 
le Computergrafik unverzichtbar. 
Doch wie funktioniert 3D-Grafik 
und warum ist es beispielsweise so 


schwer, runde Objekte abzubilden? 


Grafik aus dem 
Computer 

Sie mag anfangs kompliziert er- 
scheinen, doch 3D-Computergrafik 
zu verstehen oder selbst zu erschaf- 
fen, ist durchaus möglich. Während 
PC-Spieler vergleichsweise spät in 
den Genuss von 3D-Grafik kamen, 
gab es entsprechende Entwicklun- 


gen schon deutlich früher. 


1972 entstand die kurze Filmse- 
quenz A Computer Animated Hand, 
die von Edwin Catmull und Fred 
Parke erstellt wurde. Sie zeigt eine 
dreidimensionale Hand, die nicht 
nur als Drahtgittermodell (Wire- 
frame), sondern mit schattierten 
Oberflächen (Polygonen) darge- 
stellt wurde. Darüber hinaus war 
sie animiert, die Hand konnte sich 
also bewegen. Die beiden Schöp- 
fer waren damals Studenten an der 
University of Utah. Catmull ist in- 
zwischen Präsident der Walt Disney 
Animation Studios und war bereits 
bei der Gründung der Pixar Anima- 
tion Studios ein Teil des Unterneh- 
mens. Parke veröffentlichte zwei 
Jahre nach A Computer Animated 
Hand noch eine Demonstration mit 
einem animierten, menschlichen 
Gesicht. 


Auch vor den 1970ern gab es erste 
Gehversuche mit computergene- 
rierten Grafiken, doch kamen aus 


Leistungsgründen damals vornehm- 


lich Wireframe-Ansichten zum 
Einsatz. Es waren also ausschließ- 
lich die definierenden Kanten der 
Objekte sichtbar, nicht aber die 
Flächen. Ein Beispiel hierfür ist die 
1963 von Edward E. Zajac veröffent- 
lichte Animation eines Satelliten, 
der um die Erde kreist. Sie besteht 
aus einer sich drehenden Kugel und 


einem darum rotierenden Quader. 


Passende Software 

kommt auf den Markt ... 
An Relevanz gewannen entspre- 
chende Grafiken durch Programme, 
die die Erstellung von dreidimensi- 
onalen Objekten über eine Benut- 
zeroberfläche ermöglichten. Zuvor 
mussten die Koordinaten von Eck- 
punkten von Hand eingegeben wer- 
den. In den 1980ern wurden mehre- 
re Unternehmen gegründet, die bis 
heute bestehen und wichtige Pro- 
gramme aus diesem Bereich vertrei- 
ben: Autodesk startete 1982; das Un- 
ternehmen vertrieb zunächst Auto 
CAD (Computer Aided Design). 
1990 erschien dann 3D Studio - der 


direkte Vorgänger von 3ds Max. 


1983 wurde Alias Research, später 
Alias Systems Corporation, gegrün- 
det. Das Unternehmen entwickelte 
beispielsweise das Programm Po- 
weranimator, 1998 kam dann die 
bekannte Software Maya auf den 
Markt, die inzwischen von Auto- 


desk vertrieben wird. 


„.. und 3D-Spiele häufen 
sich 

Während computergenerierte Gra- 
fiken für Animationen oder Spezi- 
aleffekte in Filmen schon früher 
zum Einsatz kamen, standen Spiele 
damals vor einem Leistungspro- 
blem: Heimanwender hatten nur 
sehr begrenzte Rechenleistung und 
obendrein muss bei einem Spiel die 
Berechnung auch noch in Echtzeit 
erfolgen. Die grafische Darstellung 
wurde „live“ und damit interaktiv 


also erst später möglich. 


Einer der ersten Titel mit geren- 
derten Flächen anstelle von Wire- 
frames, 3D Monster Maze, erschien 
1981 für den Sinclair ZX81. Dieser 
hatte einen Prozessor mit — aus 
heutiger Sicht lächerlichen — 3,25 
Megahertz Takt verbaut. Das Spiel 
wurde in First-Person-Perspektive 
dargestellt; der Spieler musste dar- 
in einen Weg aus einem Labyrinth 
finden. Schon früher gab es Spiele 
mit Wireframe-Ansicht, etwa Spa- 
sim aus dem Jahr 1974. Ein verhält- 
Spielerlebnis, 
bot 


nismäßig flüssiges 
auch in Wireframe-Ansicht, 
beispielsweise das von Atari entwi- 
ckelte Battlezone vom November 
1980. Zum Vergleich: Das berühmte 
Spiel Pac-Man erschien nur wenige 


Monate früher. 


Ein Jahrzehnt später hatte sich die 
Grafik stark weiterentwickelt: Der 
Klassiker Wolfenstein 3D setzte auf 
einen Mix aus einer 3D-Spielwelt 
und 2D-Gegnern. Die Polygone 
waren hier bereits nicht mehr ein- 
farbig, sondern mit Texturen verse- 
hen. 1995 kam der erste vollständig 
am Computer erstellte Spielfilm, 
Toy Story, ins Kino — und weitere 
Animationsfilme folgten. Die Grafik 
wurde nun langsam realistischer 


und vor allem massentauglich. 


Aufbau einer 3D-Szene 

Da heutzutage fast alle Spiele 3D-Ti- 
tel und entsprechende Technologi- 
en aus dem täglichen Leben keines- 
falls wegzudenken sind, stellt sich 
die Frage nach dem Wie natürlich 
schnell. Insbesondere deswegen, 
weil in modernen Filmproduktio- 
nen grafische Niveaus erreicht wer- 
den, die man kaum mehr von der 


Realität unterscheiden kann. 


Ob eine Computergrafik für ein 
Bild, einen Film oder ein Spiel er- 
stellt wird, ist dabei auf Seiten der 
verwendeten Techniken kaum ein 
Unterschied. Der größte Unter- 


schied liegt in dem Fokus auf eine 


hohe Leistungsfähigkeit bei Spie- 
len — die Grundsätze bleiben aber 
im Prinzip identisch. Die folgenden 
Punkte sollen einen groben Über- 
blick über den Aufbau einer dreidi- 
mensionalen Szene geben, wie sie 
zur Erzeugung computergenerier- 
ter Bilder verwendet wird. Als Sze- 
ne wird dabei der virtuelle Raum 
bezeichnet, in dem sich alle Objekte 


mit ihren Einstellungen befinden. 


Geometrie 

Soll auf dem Bildschirm später et- 
was Erkennbares ausgegeben wer- 
den, so muss der Computer zuerst 
wissen, wo sich Objekte befinden, 
wie diese angeordnet sind und wie 
sie aussehen. Objekte bzw. Model- 
le bestehen üblicherweise aus drei 
Elementen: Eckpunkten (Vertices), 
Verbindungskanten (Edges) und 
Flächen (Faces/Polygone). Diese 
sind voneinander abhängig: Eine 
Kante wird stets durch zwei Eck- 
punkte definiert; eine Fläche durch 
mindestens drei Kanten. Eckpunk- 
te werden durch Koordinaten be- 
stimmt, die die Position in der X-, Y- 
und Z-Achse angeben. Kanten und 
Flächen bauen auf den jeweiligen 


Eckpunkten auf. 


Je nach Render-Engine können auch 
Kanten und Eckpunkte am Ende 
sichtbar sein, üblicherweise dreht 
sich die Geometrie aber um die Flä- 
chen — sie umschließen das Modell 
und bestimmen dessen Form. Dabei 
ist zu beachten, dass Flächen nicht, 
wie in der Realität, zwei Seiten ha- 
ben, sondern nur eine. Betrachtet 
man am Computer die eine Seite 
einer Fläche, so ist sie wie zu erwar- 
ten sichtbar. Die Rückseite hinge- 
gen ist zumeist unsichtbar, weshalb 
man durch sogenanntes Backface 
Culling die nicht-sichtbaren Flä- 


chen weglässt, was Leistung spart. 


Am besten zu beobachten ist das, 
wenn man in einem Spiel in ein 
Objekt hinein gerät oder gar aus 
der Welt fällt. Dann kann man meist 
durch das Objekt beziehungswei- 
se die Spielwelt hindurchsehen. 
Die entsprechende Ausrichtung 
einer Geraden wird als „Normale“ 
bezeichnet, einem auf der Fläche 
senkrecht stehenden Vektor, der 
eben in die eine oder in die andere 


Richtung zeigen kann. 


Das alles mag sich ausgesprochen 


kompliziert anhören, ist aber in der 
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Realität weit weniger problema- 
tisch: Entsprechende Programme 
bieten intuitive Wege, um Geomet- 
rie zu bearbeiten und zu erstellen. 
Und auch um die Grundprinzipien 
der Bearbeitung zu verstehen, ist 
nicht viel mehr notwendig als die 
heutzutage an Schulen unterrichte- 


te Vektorrechnung. 


Runde Objekte 

Für einen 3D-Künstler ist all das 
Beschriebene einfacher Alltag, ein 
Problem ist vielmehr die saube- 
re Erstellung von Geometrie. Das 
bedeutet, dass Objekte einfach zu 
bearbeiten sein sollen und vor al- 
lem nicht mehr Eckpunkte, Kanten 
und Flächen haben als notwendig — 
denn das kostet Speicher und Leis- 
tung. Ein Problem beim Einsparen 
von Geometrie gibt es vor allem 
bei der Darstellung runder Objek- 
te: Flächen und Kanten sind immer 
gerade, weswegen Rundungen, um 
nicht kantig auszusehen, viel Geo- 
metrie verbrauchen. 
Render-Engines stellen Flächen 
intern als Dreiecke dar, denn egal 
Dreiecks 


welchen Punkt eines 


man verschiebt, die eingeschlosse- 


Näherungen eines Kreises bzw. einer Kugel: In der ersten Zeile sind Kreise, in der zweiten Kugeln mit Flat Shading. 
In der dritten Zeile sehen Sie Kugeln mit Phong („Smooth“) Shading. Die Zahlen geben die Eckpunkte pro Kreis/des 


Gesamtobjekts an 
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IN 
BELLE 


AA 


Links: übersichtliches Modell aus Vierecken. Rechts: unübersichtliches Mod- 
ell aus Dreiecken. Lila: Durch Kanten von Vierecken umschließt man einen 
logischen Bereich 


Löscht man Seiten eines Würfels, sieht man, dass er hohl ist: 3D-Modelle 
setzen (meistens) nur auf Oberflächen. Dank „Backface Culling“ werden die 
Innenseiten nicht berechnet 
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ne Fläche ist immer „gerade“, also 
möglich. Verschiebt man jedoch bei 
einem Viereck einen der vier Punk- 
te, so kann die Fläche „ungerade“ 
werden, also unmöglich; man kann 
dort nicht über alle vier Punkte 
eine gerade Fläche bilden. Die ent- 
sprechenden Programme zerteilen 
deswegen Mehrecke intern in Drei- 
ecke, wofür es immer zwei Möglich- 


keiten gibt. 


Obwohl am Ende in Dreiecken ge- 
rechnet wird, arbeitet man bei ent- 
sprechenden Modellen meistens 
mit Vierecken, um zwei gegenüber- 
liegende Seiten zu erhalten. Das 
ist für den sogenannten Meshflow 
(auch Topologie genannt) wichtig: 
Man bildet mit den Vierecken Ringe 
um Teile des Modells. Das ist für ei- 
nige interne Funktionen von Model- 
lierungsprogrammen notwendig 
und sorgt zugleich für eine verbes- 


serte Übersicht. 


Sind alle benötigten Modelle er- 
stellt, können sie im Raum ange- 
ordnet werden. Ausgehend von der 
in der Szene befindlichen Kamera 
kann die Render-Engine nun be- 
stimmen, welche Objekte/Polygone 
weiter vorne liegen und welche ver- 
deckt sind. 


Materialien und 
Texturen 

Soll das Ergebnis auf dem Bild- 
schirm jedoch nicht nur grau sein, 
sondern auch Farben enthalten, 
wird der Einsatz von Materialien 
(oft als „Shader“ bezeichnet; nicht 
zu verwechseln mit Shadereinhei- 
ten in GPUs) und Texturen not- 
wendig. Erstere bestimmen die Ei- 
genschaften der Oberfläche eines 
Objekts, Letztere wurden früher 
nur für die Farbgebung verwendet 


— heute jedoch für deutlich mehr. 


Für Materialien gibt es verschie- 
dene Möglichkeiten, um mit auf- 


treffendem Licht zu reagieren. Sie 


können beispielsweise spiegelnd 
oder diffus sein — oder auch beides 
gleichzeitig, in einem beliebigen 
Verhältnis. Sehr alte Spiele haben 
keine Reflexionen, die Materialien 


sind also alle diffus. 


Das Problem an spiegelnden Ober- 
flächen ist, dass der Lichtstrahl ab- 
gelenkt wird und damit nach dem 
Auftreffen auf das erste Objekt 
noch weiterverfolgt werden muss; 
das kostet Leistung. Einfarbige Ma- 
terialien, die höchstens mit dem 
umgebenden Licht interagieren, 
sind hier schonender, aber eben 
auch deutlich weniger ansehnlich. 
Mit moderner Hardware und damit 
mehr Leistungsreserven sind spie- 
gelnde Oberfläche jedoch möglich 
geworden. Je nach Implementie- 
rung sind sie wirklich „realistisch“ 


oder nur die Realität nachahmend. 


Textur-Tricks 

Render-Engines bieten für gewöhn- 
lich fertige Materialien an und 
unterteilen diese beispielsweise 
in metallische, nicht-metallische, 
transparente etc. Damit Modelle 
nicht überall dieselbe Farbe haben, 
wird auf diese eine Textur gelegt. 
Jede Fläche erhält so sozusagen 
eine „Tapete“, die aus einem Bild 
entnommen wird. 

Heutzutage werden Texturen 
jedoch nicht nur für die Farbe 
Objekts Wei- 


Anwendungszwecke sind 


eines eingesetzt. 
tere 
zum Beispiel Normal- und Dis- 
placement-Maps. Mit diesen 
können die Eigenschaften der 
Objektoberfläche weiter beeinflusst 
werden. So kann man zum Beispiel 
auf derselben Fläche mehrere Mate- 
rialien darstellen: Ist die Textur an 
einer Stelle weiß, wird Material A 


verwendet, andernfalls Material B. 


Die in den letzten Jahren massiv 


angestiegene Verwendung von 


nicht nur höher auflösenden, son- 


dern auch mehr Texturen ist einer 
der Gründe für die immer größer 
werdenden Spiele. Die Farbtextur 
braucht beispielsweise drei Farb- 
kanäle (Rot, Grün, Blau), ebenso 
wie eine Normal-Map. Displace- 
ment-Maps kommen mit einem Ka- 
nal (Schwarz/Weiß) zurecht. 


Es werde Licht! 

Nun befinden sich nicht mehr nur 
einfache Objekte in unserer Szene, 
sondern solche mit Materialien und 
Texturen, also Objekte mit Farben. 
Damit diese am Ende stimmig dar- 
gestellt werden, ist nur noch eines 
notwendig: Licht, das mit den Mate- 
rialien interagiert. Dafür gibt es ver- 
schiedene Ansätze: Render-Engines 
verfügen meist über mehrere Arten 
von Lichtquellen, beispielsweise 
unsichtbare Punkte oder Geometri- 
en, die Licht ausstrahlen. Auch wird 
oft die Umgebung verwendet: Die 
Himmelstextur beleuchtet die Sze- 


ne individuell. 


Lichtquellen werden dabei, wie 
im echten Leben auch, durch die 
Parameter Farbe, Helligkeit und 
Größe definiert. Ersterer verändert 
beim Auftreffen des Lichts auf ein 
Material die dargestellte Farbe, 
während die Helligkeit auch eben- 
diese im Endergebnis beeinflusst. 
Die Größe wiederum bezieht sich 
auf die entstehenden Schatten: Ist 
eine Lichtquelle unendlich klein, so 
sind alle entstehenden Schatten an 
den Karten hart. Es gibt also keinen 
Übergang vom schattierten zum 
nicht schattierten Bereich. Macht 
man die Lichtquelle größer, wird 
der Übergang weicher — zumindest 


beim Offline-Rendering. 


Dynamik kommt ins 
Spiel 

Mit den bisher beschriebenen Be- 
standteilen haben wir alles, um 
ein Bild zu berechnen. Der Vorteil 
in 3D-Welten liegt aber in der In- 


teraktivität und genau diese gilt es 
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Mit Bump-Maps kann man Vertiefungen vortäuschen. Oben: Das Objekt ohne Bump-Map. Mitte: Das Objekt mit 
Bump-Map. Unten: Das Objekt mit modellierten Details (Vertiefungen durch echte Geometrie, nicht durch Texturen) 


Durch Displacement-Maps können Objekte mit höherem Detailgrad dargestellt werden. Nähere Objekte werden au- 
tomatisch weiter unterteilt (z. B. Catmull-Clark-Algorithmus/Tesselation) und anhand der Displacement-Map verscho- 
ben. Bei zu niedriger Mindestdistanz sieht man eine Formänderung, wenn man sich Objekten nähert 


Links: Solid. Mitte: Wireframe. 
Rechts: Solid + Wireframe: Die 
Solid-Ansicht zeigt das Modell 
mit Flächen an, die Wireframe- 
Ansicht nur mit Kanten. Nur 
die Eckpunkte anzuzeigen ist 
unüblich, da man dann die 
Struktur des Objekts kaum 
mehr erkennt 


Materialien. Oben: Stufen zwischen diffus und glänzend. Unten: Stufen zwischen diffus und Glas. Während Raytracer 
echte Spiegelungen bieten, werden bei Spiel-Engines oft Tricks zur Realisierung eingesetzt 
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Der Catmull-Clark-Algorithmus erzeugt zusätzliche, abrundende Geometrie 
und funktioniert am besten mit Vierecken. Jede weitere Stufe vervierfacht 
die Polygon-Anzahl. Zu hohe Einstellungen können schnell zu Leistungs- 
und Speicherproblemen führen, deswegen wird ergänzend zumeist Phong 
(„Smooth“) Shading eingesetzt 


Gängige Texturen/Maps 


Art der Textur/Map 


Zweck 


Diffuse/Albedo 


Grundsätzliche Farbgestaltung des Objekts 


Normal/Bump/Parallax 


Beeinflusst Lichteinfall auf ein Objekt, kann Vertiefungen in 
geraden Ebenen vortäuschen 


Displacement/Tessellation 


Kann tessellierte (zerteilte) Flächen verschieben, um eine nahe 
Oberfläche mit zusätzlicher Geometrie zu berechnen 


Specular 


Bestimmt, wo ein Objekt stärker/schwächer glänzt 


ransparency (manchmal in Dif- 
use/Albedo enthalten) 


Kann ein Objekt durchsichtig machen, beispielsweise oft bei 
Gewächsen eingesetzt 


Modell: „Sintel“ von Andy Goralczyk (Quelle: cloud.blender.org). Links: Mod- 
ell ohne Schatten/Beleuchtung. Mitte: Modell ohne Materialien („Clay Ren- 
der“). Rechts: Modell mit Texturen, Materialien und Beleuchtung 
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noch zu erlangen. Die Koordinaten 
von Objekten können natürlich ver- 
schoben und rotiert werden. Das 
würde bereits reichen, um die Ka- 
mera in verschiedene Positionen zu 
bringen. Möchte man die Modelle 
jedoch dazu bringen, ihre Form zu 
verändern, so müssen diese zuerst 


„geriggt“ und animiert werden. 


Das Rig ist ein Skelett, das in einen 
Körper eingesetzt wird. Möchte 
man einen Menschen riggen, so 
würde man zwischen allen rele- 
vanten Gelenken einen „Bone“ ein- 
setzen. Anschließend wird jedem 
Vertex im Bezug auf jeden Bone ein 
„Gewicht“ (eine Stärke) zugewie- 
sen. Bewegt man nun einen Bone, 
dann werden alle dazugehörigen 
Vertices, abhängig von ihrem Ge- 
wicht, mitbewegt. Würde man bei- 
spielsweise einen Unterschenkel 
bewegen, so wäre es unsinnig, den 
entsprechenden Knochen mit Eck- 


punkten am Ohr zu verknüpfen. 


Neben Knochen werden häufig 
noch sogenannte Shape Keys ein- 
gesetzt. Ein Shape Key macht in 
der Praxis nichts anderes, als ausge- 
wählte Eckpunkte in eine angege- 
bene Position zu verschieben. Diese 
Funktion wird oft verwendet, um 
durch das Rig entstehende Fehler 
zu kaschieren oder zum Beispiel 


Muskelbewegungen hinzuzufügen. 


Von der Theorie in die 
Praxis 

Bei all der Theorie stellt sich natür- 
lich die Frage, wie man die genann- 
ten Dinge in die Praxis umsetzt. Die 
Zeiten, in denen Koordinaten und 
Verbindungen von Hand in Tabel- 
len eingetragen wurden, sind glück- 
licherweise schon lange vorbei. Für 
alle genannten Arbeitsschritte gibt 
es eigenständige Programme und 
auch Komplettlösungen in sehr gro- 
ßer Anzahl. Meistens ist Software 
zur Modellierung auch in der Lage, 


die Modelle entsprechend zu textu- 


rieren, die Materialien und Lichter 
einzustellen, Modelle zu riggen und 
das Ergebnis am Ende zu berech- 
nen. Trotzdem werden auch bei 
Komplettlösungen oft noch andere 
Programme eingesetzt, die auf ei- 
nen einzelnen Arbeitsschritt spezi- 
alisiert und dort dementsprechend 


überlegen sind. 


Kostenlose 3D-Pro- 
gramme 

Bekannte Programme der Indus- 
trie sind in etwa 3ds Max und Maya, 
beide aus dem Hause Autodesk. Sie 
bieten beispielsweise die beschrie- 
benen Funktionen. Die von profes- 
sionellen Studios häufig eingesetz- 
ten Programme sind jedoch oft zu 
teuer für Privatanwender, weswe- 
gen hier kostenlose (Open-Source-) 
Alternativen attraktiv erscheinen 
— zumindest, wenn man zuerst ein- 
mal in den Bereich der 3D-Kunst hi- 
nein schnuppern möchte. Das wohl 
mächtigste unter den kostenlosen 


Programmen ist Blender. 


Blender startete ursprünglich auch 
als kommerzielle Software, doch 
mit dem Bankrott des entwickeln- 
den Unternehmens Not a Number 
Technologies sah Chefentwickler 
Ton Roosendaal die Möglichkeit, 
das Programm gegen 100.000 Euro, 
die per Crowdfunding gesammelt 
wurden, als Open-Source-Soft- 
ware zu veröffentlichen. Seit da- 
mals, 2002, wird Blender von der 
Non-Profit-Organisation Blender 
Foundation unter der Leitung von 
Roosendaal verwaltet und weiter- 
entwickelt. Die Lizenz ist GPL v2, 
die Software ist dementsprechend 


vollständig kostenlos. 


Das Programm wird von Einstei- 
gern zu Beginn oft als kompliziert 
empfunden. Mit entsprechendem 
Lehrmaterial ist es aber durchaus 
auch für Hobbyisten möglich, die 
Verwendung dieser mächtigen Soft- 


ware zu erlernen. 
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Wie Rastergrafik und 


Raytracing funktionieren 


Mit dem Slogan „Grafik neu erfunden“ bewirbt Nvidia seine Turing-Grafik- 
karten der RTX-Reihe und spielt damit auf das Kernmerkmal entsprechender 
Grafikprozessoren an: Raytracing 


Te \ nOrthlight 


Laut Remedy ist die Raytracing-Technologie im Forschungszustand und 
„weit davon entfernt, in einem Computerspiel eingesetzt zu werden“ - hier 
eine Demo, die Nvidia zeigte 


REMEDY Œ 
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as Thema „Raytracing in Spie- 
Di. taucht mit schöner Regel- 
mäßigkeit alle paar Jahre wieder auf 
- zuletzt von Nvidia und Microsoft 
ins Gespräch gebracht. Wir erklären 
die Unterschiede zur klassischen Ras- 
terisierung und zeigen den aktuellen 


Stand der Entwicklung auf. 


Raytracing-Versprechen 
Ankündigungen von Nvidia zufolge 
soll Raytracing in Spiele bald zum 
Standard werden. „Einmal mehr“, 
mag man entgegnen, denn ent- 
sprechende Versuche gab es schon 
häufiger, unter anderem von Intel, 
wo man 2009 mit „Larrabee“ den 
Grafik- und Videospielemarkt revo- 
lutionieren wollte. Das Projekt wur- 
de sang- und klanglos eingestellt. 
Raytracing bei Intel erlebte jedoch 
vor wenigen Monaten eine überra- 
schende Wiederauferstehung: Intel 
möchte bis 2020 einen entspre- 
chenden Grafikprozessor auf den 
Markt bringen. Ist also doch mehr 


dran am Thema Raytracing? 


RTX und DXR 

Zurück zu Nvidia: Der Chipherstel- 
ler glaubt, dass jetzt die Zeit gekom- 
men ist, in der Grafikkarten stark 
genug sind, um Raytracing mas- 
sentauglich zu machen. Zusammen 
mit Microsoft stellt der Chipherstel- 
ler „RTX“ vor, das als Back-End zu 
Microsofts neuer Direct-X-Raytra- 
cing-API, kurz „DXR“, dient. Schon 
in den vergangenen Jahren ging es 
auf Nvidias GTC-Hausmessen im- 
mer wieder um Raytracing, aller- 
dings vor allem im Zusammenhang 
mit der Filmproduktion. Dort wird 
die Render-Technik schon lange 


für Spezialeffekte beziehungsweise 


ganze Animationsfilme eingesetzt, 
da nahezu beliebig viel Zeit zum 
Rendern vorhanden ist, um das op- 


tisch schönste Resultat zu erzielen. 


RTX nennt Nvidia seine Features, 
um die Berechnung von Raytracing 
zu beschleunigen, und die Bünde- 
lung von Interfaces. RTX ist Teil von 
Microsofts DXR, das Spieleentwick- 
ler nutzen können, um das Rendern 
über Raytracing in Direct-X-12-Ti- 
teln zu ermöglichen. Nvidia möch- 
te ein Gameworks-Modul anbieten, 
das DXR auf einem „High-Level“ of- 
fenlegt. 


Zuerst soll die Technik die bisher 
genutzte Rasterisierung ergänzen, 
später vielleicht ganz ersetzen. Zu 
Beginn soll die Technik in den Be- 
reichen eingesetzt werden, in de- 
nen sie den größten Effekt hat: Bei 
der Berechnung von Schatten und 
Spiegelungen. Mit namhaften Stu- 
dios wie DICE (Battlefield, Star Wars 
Battlefront) und 4A Games (Metro) 
sowie Engine-Entwicklern wie Epic 
Games (Unreal-Engine) und Unity 
Technologies (Unity-Engine) gab 
und gibt es bereits wichtige Inter- 
essenten und Entwicklungspartner 
für die Technik. 


AMD 

Auch AMD arbeitet nach Anga- 
ben von CEO Lisa Su an Raytra- 
cing-GPUs. Doch unabhängig davon 
hat AMD auf der Fachmesse Game 
Developers Conference (GDC) eine 
hauseigene Open-Source-Raytra- 
cing-Engine vorgestellt, die exakt 
den gegenteiligen Ansatz von Micro- 
soft und Nvidia verfolgt: Statt einen 
Rasterizer um einen Raytracer zu 
ergänzen, um eine höhere Quali- 
tät zu erhalten, soll bei „Radeon 
ProRender“ ein Raytracer Teile mit 
Rasterisierung auf Vulkan-Basis ren- 
dern, um Zeit zu sparen. Außerdem 
soll AMDs „Radeon Rays Raytracer“ 
in Unity integriert werden - aller- 


dings nur, um das Erstellen von sta- 


tischen Beleuchtungsmodellen zu 


beschleunigen. 


Raytracing- 
Anwendungen 

Abseits von Spielen kämpfen AMD 
und Nvidia auch bei Raytracern und 
Software für den produktiven Ein- 
satz um Unterstützung und Markt- 
anteile. Aus diesem Grund entwi- 
ckeln die beiden Unternehmen 
auch eigene Lösungen: Bei AMD 
beispielsweise das erwähnte „Ra- 


deon ProRender“, bei Nvidia „Iray“. 


Der parallele Einsatz von Raytracing 
und Rasterisierung ist für diese Ge- 
schäftsfelder ebenso interessant wie 
für Spiele. Auch wenn per Raytra- 
cing gerenderte Bilder oder Filme 
nicht in Echtzeit präsentiert werden 
müssen, ist eine möglichst schnelle 
und leistungssparende Berechnung 
trotzdem von großem Interesse, um 


Zeit und Kosten zu sparen. 


Für Spieler relevanter, wenn auch 
indirekt, ist der Einsatz derartiger 
Methoden in Programmen für Spie- 
leentwickler - wie jene des bereits 
genannten Entwicklers Allegorith- 
mic. Für Spiele werden oft zuerst 
hochauflösende Objekte erstellt, 
die anschließend auf leistungsspar- 
samere Versionen heruntergerech- 
net werden. Das Erstellen von den 
komplexeren Modellen ist für die 
darstellenden Programme eine He- 
rausforderung: Schnell kommt es 
zu Framedrops und Ladezeiten im 
Viewport, was die maximale Quali- 
tät und somit auch das Endergebnis 


limitiert. 


Zudem ermöglicht eine flüssigere 
Darstellung auch ein schnelleres 
Arbeiten - man hat mehr Zeit, die 
man dem Objekt und damit dem 
Endergebnis widmen kann. Die 
Kombination der beiden Techniken 
kann also Spielen auch dann helfen, 
wenn sie gar nicht direkt eingesetzt 


wird. 


Geschwindigkeit 

vs. Realismus 

Um die Vorteile der Kombination 
beider Techniken zu verstehen, 
muss man sie getrennt betrachten; 
und auch die Marketingaussagen 
der entsprechenden Unternehmen 
mitunter etwas dämpfen. Stark ver- 
einfacht kann man sich die beiden 
Ansätze so vorstellen: Rasterisie- 
rung ist ein extrem schneller, aber 
unrealistischer Weg, ein Bild zu be- 
rechnen, während Raytracing in der 
Theorie zwar „fotorealistisch“ arbei- 
tet, dafür aber die Berechnungszeit 


gegen unendlich tendiert. 


Rasterisierung 

Rasterisierung ist die bei Spielen 
dominierende Technik und aktuelle 
Grafikkarten sind für diese Art der 
Berechnung sehr gut geeignet. Der 
Algorithmus betrachtet zu Beginn 
eines jeden Frames die in der Sze- 
ne enthaltenen Polygone. Entschei- 
dend für das Rendering ist dabei als 
erstes die Frage, welche Polygone 
überhaupt zu sehen sind. Ist in ei- 
ner Szene ein Objekt zu sehen, so 
werden in jedem Fall die von der 
Kamera abgewandten Polygone 
gleich zu Beginn verworfen (Back- 
face Culling). Dasselbe passiert, 
wenn ein Polygon des Objekts voll- 
ständig außerhalb des Sichtfelds der 
Kamera liegt (Viewport Culling), 


zum Beispiel zu weit oben. 


Alle verworfenen Polygone sind 
für den nachfolgenden Rend- 
ering-Prozess nicht mehr relevant, 
sie werden nicht mehr betrachtet. 
Das kann, wie gerade beschrieben, 
einzelne Polygone betreffen, aber 
auch ganze Objekte, die von weiter 
vorne liegenden Objekten verdeckt 
werden. Auch alles, was hinter der 
Kamera liegt, wird nicht beachtet. 
Die übrigen Polygone werden sinn- 
bildlich direkt vor die Kamera ge- 
setzt, sodass sie den gesamten Bild- 
ausschnitt verdecken. Nun kann die 
Kamera das Bild Pixel für Pixel ab- 
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Geometrie in 3D-Spielen 


Die Unterschiede bei der Geometrie: Raytracer betrachten die gesamte 
Szene, Rasterizer verwerfen Flächen außerhalb des direkten Sichtfelds. 


Sicht der Kamera 


Ansicht von oben 


Seitenansicht beim Rasterizer 
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tasten und für jedes einzelne Pixel 
entscheiden, welches Polygon ihn 
bestimmt. Da die Texturen direkt 
auf den Polygonen aufliegen, ist 
eine Einfärbung nach dem entspre- 
chenden Bereich auf der Textur des 


Gesamtobjekts kein Problem. 


Kantenflimmern 

Ist ein Polygon nicht perfekt ent- 
lang der X-/Y-Achse ausgerichtet, 
sondern hat eine schräge Kante, 
dann entsteht hier der gut bekann- 
te Treppeneffekt, der ohne Anti-Ali- 
asing auftritt. Der einfachste Ansatz 
zur Behebung dieses Problems ist 
es, schlicht eine höhere Auflösung 
zu berechnen und diese anschlie- 
ßend herunterzuskalieren - das lie- 
fert eine sauberere Kantenführung 


und weniger Flimmern. 


Lichtquellen 

Möchte man das Bild jedoch in, 
nach aktuellen Standards, akzep- 
tabler Grafik haben, dann müssen 
durch die Rasterisierung noch 
viele zusätzliche Dinge berechnet 
werden. Der gerade beschriebene 
Weg liefert zum Beispiel keinerlei 
Information über Beleuchtung und 
Schattierung der Polygone. Dafür 
wird die ausgedünnte Szene noch 
einmal aus Sicht der Lichtquellen 
berechnet und anschließend, in 
Kombination mit der Sicht der Ka- 
mera, entschieden, welche Pixel be- 


leuchtet sind und welche nicht. 


Da die Lichtquellen bei dieser Me- 
thode unendlich klein sein müssen, 
da man sonst nicht eindeutig aus 
Sicht der Lichtquelle in die Szene 
sehen könnte, gibt diese Methode 
keine Information über die Härte 
der Schatten. Die Kanten sind also 
immer scharf gezeichnet, weiche 
Übergänge müssten wieder durch 
zusätzliche Berechnungen realisiert 


werden. 


Nun fehlen noch viele weitere De- 


tails, wie die zahlreichen Varianten 


von Reflexionen, globaler Beleuch- 
tung und so weiter. All diese wer- 
den, wie die Lichtberechnung, mit 
Tricks und weiteren Rechenschrit- 
ten hinzugefügt. Am Ende besteht 
ein solches Bild also aus einer Viel- 


zahl an Rechenschritten. 


Raytracing 

Im Gegensatz dazu hat Raytracing 
einen etwas leichter verständli- 
chen, da physikalischen Ansatz. 
Das Verfahren kann sowohl auf Pro- 
zessoren als auch auf Grafikkarten 
ausgeführt werden und kommt bei- 
spielsweise bei Produktvisualisie- 


rungen und in Filmen zum Einsatz. 


Raytracing betrachtet die komplet- 
te Szene, das heißt alle Objekte mit 
allen Polygonen und allen Licht- 
quellen zugleich. Von der Kamera 
aus werden Lichtstrahlen in die 
Szene geschickt, die an den Objek- 
ten abprallen. Die Strahlen prallen 
so lange ab, bis sie auf eine der in 
der Szene verteilten Lichtquellen 
treffen. Üblicherweise gibt es aber 
einen Maximalwert für die Anzahl 
der Reflexionen, damit sich Licht- 
strahlen nicht an einem Punkt 
„verfangen“ können. Hat der Strahl 
nach einer bestimmten Anzahl von 
Berechnungen noch keine Licht- 
quelle entdeckt, dann wird er ver- 
worfen. Zusätzlich versucht der 
Lichtstrahl nach einer bestimmten 
Menge der Reflexionen, sich direkt 
mit der Lichtquelle zu verbinden. 
Der Kollisionspunkt muss also nur 
im Sichtbereich einer Quelle liegen 
und nicht durch Zufall die exakten 


Koordinaten treffen. 


Den Weg, den der Lichtstrahl zu- 
rückgelegt hat, merkt sich der 
Raytracer - denn erst, wenn er die 
Lichtquelle gefunden hat, kann die 
Farbe bestimmt werden. Die resul- 
tierende Farbe hängt schließlich 
vom Licht ab, das heißt der gesam- 
te Weg muss am Ende zurückver- 


folgt werden. Nun kann immer der 


aktuelle Wert des Lichtstrahls be- 
rechnet werden. Am Anfang strahlt 
die Lichtquelle direkt auf das erste 
Material. Danach ist der Lichtstrahl 
bereits anders: Das erste Material 
hat ihn verändert. Außerdem ist die 
Intensität des Lichts nun weniger 
stark. Das Licht kann theoretisch 
auch von der Lichtquelle aus zur Ka- 
mera gesendet werden, das Prinzip 


ist dabei identisch. 


Realistische 
Lichtverhältnisse 
Durch die Simulation von Licht- 


strahlen liefern Raytracer ein ver- 


realistisches Bild, 


wobei einige Effekte, die durch 


hältnismäßig 


Rasterisierung schwer darzustellen 
sind, durch Raytracing sehr leicht 
erzielt werden. Globale Beleuch- 
tung, also das gegenseitige Beein- 
flussen von Objekten und Licht, 
ist bei einem Raytracer kein Prob- 
lem. Auch Spiegelungen und sanf- 
te Schatten sind bereits von Haus 
aus mit dabei. Das Realisieren von 
volumetrischen Effekten wie Sub- 
surface Scattering (Streuung von 
Licht im Körper, beispielsweise bei 
Wachs und Haut) sind bei einem 


Raytracer ebenso gut zu erreichen. 


Bildrauschen bei Raytracing 


Per Raytracing berechnetes Bild in verschiedenen Qualitätsstufen: In dieser Szene wird der vom Schirm geworfene Schatten erst mit vielen Lichtstrahlen 
deutlich sichtbar, vorher wird er vom Rauschen überlagert. 


1 Sample (Anzahl der Lichtstrahlen) 


8 Samples (Anzahl der Lichtstrahlen) 


Das Problem an der Rechenweise 
von Raytracern ist, dass ihnen ein 
einzelner Lichtstrahl pro Pixel nicht 
ausreicht: Es wird eine sehr hohe 
Anzahl von Lichtstrahlen benötigt, 
um ein sauberes Bild zu erzeugen. 
Ansonsten kommt es zu Bildrau- 
schen. Die Ergebnisse der Strahlen 
werden pro Pixel aufaddiert. Das, 
was am Ende zu sehen ist, ist also 
ein Durchschnittswert aller einzel- 


nen Ergebnisse (Akkumulation). 


Hohe Rechenzeit 
Da sich das Rauschen nur mit je- 


der Verdopplung der gesendeten 


2 Samples (Anzahl der Lichtstrahlen) 


32 Samples (Anzahl der Lichtstrahlen) 
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Lichtstrahlen halbiert, kann die 
benötigte Rechenzeit sehr schnell 
ansteigen. Bilder, die pro Pixel nur 
einen einzigen Lichtstrahl gesendet 
hätten, wären vermutlich mit etwas 
Optimierung durchaus flüssig dar- 
stellbar; nur sähe das Endergebnis 
nicht annähernd erwartungsgemäß 


aus. 


Zudem ist auch der grundlegen- 
de Ressourcenverbrauch hoch: Im 
Gegensatz zur Rasterisierung wer- 
den hier keine Daten verworfen, 
man betrachtet also die ganze Sze- 


ne gleichzeitig. Positiv ist wieder- 
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Mit Raytracing ist globale Beleuchtung leicht umzusetzen. Beleuchtete Ob- 
jekte beeinflussen sich gegenseitig, so färben die beiden Kugeln leicht auf 
die Wand ab 


Rasterizer können grundsätzlich nur harte Schatten werfen (links) und müs- 


sen auf „Tricks“ zurückgreifen. Bei Raytracern (siehe Mitte und rechts) sind 
hingegen auch weiche Übergänge im Schattenwurf möglich 
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um, dass sich die Berechnung der 
Lichtstrahlen sehr gut parallelisie- 
ren lässt. Das ist auch der Grund, 
warum AMDs Bulldozer-CPU-Archi- 
tektur oft mit Raytracing-Demos 
präsentiert wurde - hier konnten 
die vier Module schon damals voll 


ausgelastet werden. 


Beide sind nicht perfekt 
Bei den GDC-Ankündigungen von 
Microsoft und Nvidia konnte man 
den Eindruck erhalten, dass Raste- 
risierung „schlecht“ und Raytracing 
„gut“ sei. In der Praxis sind beide 
aber nur Grundkonzepte der Be- 
rechnung, die hier schematisch be- 
schrieben wurden. Ein Raytracer 
könnte jeden Lichtstrahl auch nur 
ein einziges Mal reflektieren lassen 
und dann, wenn er die Lichtquelle 
nicht direkt trifft, sofort verwerfen. 
Die Berechnung wäre so schneller 
gelöst, aber sichtbare Spiegelungen 
gäbe es keine und das Resultat sähe 
schlechter aus als man es von heuti- 
gen Spielen gewohnt ist. Im Gegen- 
zug könnte man einer Spiel-Engine 
auch mehr Zeit als die üblichen 
33,33 Millisekunden (30 FPS) spen- 
dieren und damit zusätzliche Effek- 
te wie realistischere Spiegelungen 


simulieren lassen. 


In der Praxis werden beide Ver- 
fahren angepasst, um einen best- 
möglichen Kompromiss zu finden; 
je nach Ansatz, aber auch je nach 
Einsatzgebiet in unterschiedlicher 
Ausprägung. Bei Rasterisierung 
sind beispielsweise Shadow und 
Reflection Maps nicht mehr wegzu- 
denken, ohne sie gäbe es in Spielen 
weder Schatten noch Spiegelun- 
gen. Etwas fortgeschrittener sind 
die Implementierungen von globa- 
ler beziehungsweise indirekter Be- 
leuchtung oder auch Screen Space 


Reflections. 


Bildrauschen 
Bei Raytracern wiederum ist man 


bereit, etwas Realismus zu opfern, 


wenn sich dadurch die Rechenzeit 
deutlich verringert. Ein gutes Bei- 
spiel hierfür sind Denoiser (Noise = 
Rauschen; Denoise = Entrauschen), 
die am Ende des Renderings das ver- 
bleibende Rauschen entfernen. Bei 
manchen komplexen Szenen kann 
man auch nach Dutzenden Stunden 
der Berechnung noch ein leichtes 
Rauschen sehen, und da, wie be- 
reits erwähnt, jede Halbierung des 
Rauschens eine Verdopplung der 
Lichtstrahlen erfordert, würde ein 
subjektiv rauschfreies Bild einen 
nicht tolerierbaren Zeitrahmen be- 


anspruchen. 


Denoiser 

Hier kommen Denoiser ins Spiel. 
Diese gibt es beispielsweise für 
Pixars Raytracer Renderman oder 
den kostenlosen Raytracer Cycles. 
Denoiser sind Algorithmen, die 
während des Renderings Informa- 
tionen speichern, anhand derer 
das Rauschen bestmöglich aus dem 
Endergebnis entfernt wird - es sind 
also keine nachträglichen Filter, 
wie sie von Grafikbearbeitungspro- 


grammen eingesetzt werden. 


Einen Denoiser setzt auch Nvidia 
für das Raytracing in Spielen ein, 
um das Endresultat trotz der gerin- 
gen Berechnungszeit ansehnlich zu 
machen. Dieser soll auf neuronalen 
Netzen basieren und in Spielen eine 
akzeptable Optik liefern. In einer 
Demonstration wurde er von Nvidi- 
as Tensor-Kernen betrieben, in Spie- 
len wird Denoising von Compute 
Shadern vollzogen. Im Gegensatz zu 
den bereits auf dem Markt befindli- 
chen Denoisern von Raytracern hat 
Nvidia dabei den Vorteil, dass Spiele 
zumeist zusammenhängende Bilder 
produzieren. Das bedeutet, dass zur 
Eliminierung des Rauschens oder 
gar von komplett schwarzen Pixeln, 
die manchmal auftreten, unter Um- 
ständen auch Ergebnisse der vorhe- 
rigen Bilder berücksichtigt werden 


können. Zudem wird für Bewegt- 


bild fast nie ein rauschfreies Ergeb- 
nis vorausgesetzt. Filme weisen bei- 


spielsweise auch ein Rauschen auf. 


Was haben 

Spieler davon? 

Wie bereits ausgeführt, hat Raytra- 
cing bereits von Haus aus Stärken, 
bei denen die Rasterisierung trick- 
sen muss. Vor allem betrifft das die 
Berechnung von Spiegelungen und 
Schatten, weshalb diese Bereiche 
als erstes durch Raytracing abgelöst 


werden sollen. 


Ganz neu sind Raytracing-ähnliche 
Ansätze in Spielen allerdings nicht: 
Die häufig verwendeten Screen 
Space Reflections funktionieren 
bereits vergleichbar. Die Engine 
berechnet, wo der Lichtstrahl nach 
der spiegelnden Oberfläche auf- 
treffen würde, und nimmt diesen 
Farbwert an. Die Umsetzung hat 
aber einige Schwächen, die Ray- 
tracer nicht haben: Beispielsweise 
können nur Dinge gespiegelt wer- 
den, die bereits im Sichtfeld sind. 
Aus diesem Grund wird das Ender- 
gebnis oft noch automatisch nach- 
bearbeitet. 

Eine partielle Implementierung 
von „echtem“ Raytracing kann Spie- 
len aber in der Tat dabei helfen, 
schönere Spiegelungen und feinere 
Schatten zu erhalten. Nicht verges- 
sen darf man dabei, dass das noch 
lange nicht die aus Filmen bekannte 
und perfekte Grafik mit sich bringt. 
Raytracing kann zwar einige Dinge 
besonders gut darstellen, eben bei- 
spielsweise Reflexionen, aber es 
kann viele andere Probleme nicht 


lösen. 


Raytracing ist kein 
Wundermittel 

Denkt man an Raytracing, dann ist 
der gedankliche Weg zu CGI-Sze- 
nen, wie perfekt realistischen Na- 
turlandschaften, gar nicht mehr so 


weit. Es stimmt zwar, dass hierfür 


Raytracing eingesetzt wird, doch 
in Spielen wird man so etwas trotz- 
dem noch länger nicht sehen. Die 
Art des Renderings nimmt nämlich 
keinen Einfluss darauf, was darun- 


ter liegt: Objekte und Texturen. 


Eine Wiese mit Millionen von ein- 
zelnen Grashalmen, die alle mit 
verschiedenen, hochauflösenden 
Texturen verschen sind, ist für ei- 
nen Raytracer kein Problem - so 
die Theorie. In der Praxis werden 
solche Bilder jedoch meistens auf 
Prozessoren berechnet, weil Gra- 
fikkarten schlicht nicht genügend 
Arbeitsspeicher dafür haben. Un- 
ter diesen Bedingungen kann das 
auch jeder Rasterizer darstellen. 
Die Art der Berechnung ist dafür 
nicht entscheidend. Zudem haben 
Raytracer auch keine zusätzlichen 
Texture-Maps, die sie verwenden 
könnten: Normal-, Specular- und 
Displacement-Maps gibt es sowohl 
im Raytracing als auch in der Raste- 


risierung. 


Darüber hinaus gibt es auch physi- 
kalische Effekte, die nicht in jedem 
Raytracer umgesetzt werden. Bei- 
spielsweise spiegeln Oberflächen 
stärker, wenn der Einfallwinkel 
sehr steil ist. So kann eine lackier- 
te Holzfläche in der Frontalansicht 
komplett matt erscheinen, betrach- 
tet man sie von der Seite, spiegelt 
sie hingegen leicht. Für ein wirk- 
lich realistisches Bild müsste die- 
ser Effekt beachtet werden, eine 
Voraussetzung für die Bezeichnung 
als Raytracer ist die Unterstützung 


aber nicht. 


In erster Linie dürfte die Integra- 
tion von Raytracing in Spielen also 
wirklich nur den Bereich Spiegelun- 
gen und die Schattenberechnung 
verändern. Immerhin sind mittler- 
weile viele RTX-Spiele angekündigt 
und man darf gespannt sein, wie 
weit Entwickler die Grafikhardware 


ausreizen können. 
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Auch wenn sie mit Tricks hinzugefügt werden müssen, können schöne 
Beleuchtungseffekte und Reflexionen auch bei Rasterizern erreicht werden. 
(Spiel: Star Wars Battlefront 2) 
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Moderne Grafikeffekte: 
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Links: Der obere Teil ist eine Cube-Map-Reflexion 
Rechts: Der Hinterkopf kann nicht gespiegelt werden 
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Rn tragen in Spielen 


viel zur Atmosphäre bei: Nass 
glänzender Asphalt, 
Pfützen, Wasseroberflächen oder 


funkelndes Metall - ohne reflek- 


spiegelnde 


tiertes Licht beziehungsweise des- 
sen nährungsweiser Simulation 
würden Szenen in Spielen viel von 


ihrer Glaubwürdigkeit verlieren. 


Zudem dienen Reflexionen als sti- 
listisches Mittel, ein Film wie Blade 
Runner würde ohne sich auf dem 
nassen Asphalt widerspiegelnde 
Neonreklame einen großen Teil des 


charakteristischen Looks einbüßen. 


Wollen die Entwickler in ihrem 
Spiel Reflexionen nutzen, so ste- 
hen sie indes vor einem Problem: 
Eine korrekte Spiegelung einer 
Szene, beispielsweise in einer 
Pfütze am Boden, würde aufgrund 
der Komplexität moderner Titel 
voraussetzen, dass die komplette 
Szene inklusive Beleuchtung und 
Verschattung nochmals in anderer 
Perspektive berechnet wird. Dies 
würde in den allermeisten Titeln 
viel zu viel Rechenleistung benöti- 
gen. Also greifen die Entwickler zu 
Tricks: Cube-Maps und Screen-Spa- 
ce-Reflections. Erstere können 
Sie sich in etwa wie eine Skybox 
vorstellen: Aus mehreren (vor-)be- 
rechneten Bildern wird ein Würfel 
kreiert. Der Inhalt dieses Quaders 
wird auf die spiegelnde Oberfläche 
gelegt und perspektivisch mit der 
Blickrichtung des Spielers synchro- 


nisiert. 


Ändern Sie also den Blickwin- 
kel, dreht sich der Würfel ent- 


sprechend, was eine ansatzweise 


glaubhafte Spiegelung ermöglicht 
- wenn man nicht genau hinsieht. 
Cube-Maps kommen schon lange 
und häufig in Spielen zum Einsatz. 
Prominentes Beispiel sind Renn- 
spiele und der spiegelnde Lack 
der Fahrzeuge. Nachteile von Cu- 
be-Maps sind unter anderem die 
stark eingeschränkte Perspektiven- 
treue, die geringe Auflösung und 
das Problem, dass eine Echtzeitbe- 


rechnung teuer ausfallen würde. 


Screen-Space-Reflec- 
tions 

Hier kommen Screen-Space-Reflec- 
tions ins Spiel, die hochauflösende 
und perspektivisch glaubhaftere 
Reflexionen ermöglichen. Aller- 
dings mit Einschränkungen, denn 
wie das Präfix „Screen-Space“ 
schon suggeriert, kann mit dieser 
Art Spiegelung nur der Screen-Spa- 
ce, also der Bildschirminhalt, be- 


rücksichtigt werden. 


Prinzipiell ist diese Art Reflexion 
schon recht nahe dem Raytracing, 
doch das Verfahren ist stark ver- 
einfacht. So suggeriert der Präfix 
„Scereen-Space“, dass einzig der 
Bildschirminhalt berücksichtigt 
wird: Alles außerhalb des für den 
Spieler sichtbaren Bildes kann 
nicht gespiegelt werden. Das gilt 
beispielsweise auch für die ei- 
gene Spielfigur, weshalb man in 
First-Person-Shootern in der Regel 
nicht das alter Ego zu Gesicht be- 
kommt, wenn man in einen Spiegel 
blickt. Es gibt seltene Ausnahmen, 
dann kommt jedoch auch eine an- 
dere Technik zum Einsatz. Oder 
das Charaktermodell wird für 
spezielle Spiegelungen gesondert 
berechnet - bei Mirror‘s Edge Cata- 
lyst und der Heldin Faith zum Bei- 
spiel. Bei ScreenSpace-Reflections 
werden zudem häufig temporale 
Verrechnungen genutzt, um Leis- 
tung zu sparen, Artefaktbildung zu 
kaschierern und Flimmern zu un- 


terdrücken. 


Schwachstellen 

der Technik 

In einer Bildbereichsreflexion ist 
also im Grunde nur das zu sehen, 
was gerade auf dem Bildschirm 
ist. Alles andere wird vom Shader 
ausgeblendet, was zu einigen sehr 
auffälligen und befremdlich wir- 
kenden Nebeneffekten führt. 


Zu weiteren Problemen kommt es, 
wenn sich vor der Spiegelung ein 
Objekt befindet, beispielsweise das 
Waffenmodell in einem Ego-Shoo- 
ter. Denn zum einen befindet sich 
das Objekt im Weg: Bei der Be- 
rechnung der Reflexion wird ein 
unsichtbarer Strahl von dem virtu- 
ellen Auge des Spielers auf die spie- 
gelnde Oberfläche geschickt. Das 
Waffenmodell würde diesen Strahl 
aufhalten. Es muss außerdem in 
fast allen Fällen ein großzügiger 
Bereich um das betreffende Objekt 
herum ausgeschnitten werden, da- 
mit dieses nicht optisch inkorrekt 


selbst in die Spiegelung gelangt. 


Hilfe dank Cube-Maps 


Ein 


abenteuerliches 
Beispiel liefert Battlefield 1. Der 


ziemlich 


Stacheldrahtzaun vor der mit 


Screen-Space-Reflections verzier- 
ten Wasseroberfläche torpediert 
deren Darstellung stark. Es handelt 
sich jedoch um keinen Grafikfehler, 
an dieser Stelle limitiert die Tech- 
nik. Um solcherlei Auffälligkeiten 
zu kaschieren, werden häufig Cu- 
be-Maps an den Stellen eingeblen- 
det, an denen die Screen-Space-Re- 


flections aussetzen. 


In The Division funktioniert dies 
beispielsweise sehr überzeugend: 
Der Open-World-Shooter aktu- 
alisiert alle paar Frames die Cu- 
be-Maps mit neuen, aus der Um- 
gebung und der vorherrschenden 
Lichtsituation gewonnenen Daten. 
Außerdem filtert der Ubisoft-Titel 
die Reflexionen sehr geschickt und 
vermischt sie temporal mit den Cu- 
be-Maps. Probleme mit Spiegelun- 
gen der Charaktere sind außerdem 


kaschiert und eher unauffällig. 


Idealfälle 


Geschickt eingesetzt können auch 
getrickste Spiegelungen überzeu- 
gen. Es gibt einige Beispiele, in de- 


nen Screen-Space-Reflections wirk- 


lich klasse aussehen. Dazu zählt 
Doom, das sehr schicke Bildbe- 
reichs-Reflexionen bietet, diese sau- 
ber mittels einer temporalen Kom- 
ponente inklusive Verwischschutz 
(Weighting) glättet und sie außer- 
dem geschickt mit Environment-Cu- 
be-Maps vermischt. Auf diese Weise 
werden viele der Nebeneffekte der 


Screen-Space-Reflections kaschiert. 


Deus Ex: 

Mankind Divided 

Die in Mankind Divided erstmals 
genutzte Dawn-Engine zeigt prinzi- 
piell sehr schicke Screen-Space-Re- 
flections, doch es gibt auch hier 


einige Auffälligkeiten. 


Technisch fährt der auf der Gla- 
cier-2-Engine (Hitman) basierende 
Grafikmotor von Deus Ex einiges 
auf. Die schicken Spiegelungen 
werden in Mankind Divided frei- 
zügig eingesetzt und verstärken in 
dem Titel - ähnlich wie die Refle- 
xionen in Mirror‘s Edge - den „cle- 
anen“ Sci-Fi-Look. Die qualitativ 
hochwertigen Screen-Space-Reflec- 
tions werden mit Cube-Maps er- 


gänzt, letztere sind allerdings recht 
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niedrig aufgelöst. Zudem sind sie 
statisch und bilden nur unbeweg- 
te Objekte ab (Bild links unten, 
Punkt 1). 


Die Spiegelungen zieren zudem 
auch vertikale Flächen, wir können 
an solch einer Wand einmal gut die 
typischen Probleme mit der Cha- 
rakter-Darstellung demonstrieren. 
In Ego-Perspektive würde Jensen 
gar keine Spiegelung zeigen, weil 
die Figur nicht im Bildbereich zu 
sehen ist. In der Third-Person-An- 
sicht kann ebenfalls nur der Teil 
gespiegelt werden, der sich gera- 
de sichtbar im Bild befindet (Bild 


links unten, Punkt 2). 


Fazit 


Screen-Space-Reflections sind 
schick, aber zeigen praktisch im- 
mer irgendwelche unschönen Ne- 
beneffekte und Artefakte. Sie kos- 
ten außerdem häufig viel Leistung, 
obwohl nur der Screen-Space in 
die Berechnung einbezogen wird. 
Dennoch sollte man nach Möglich- 
keit nicht auf sie verzichten, denn 
sie können durchaus den gesamten 


Look einer Szene beeinflussen. 
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Screen-Space-Reflexionen 


Screen-Space-Reflections zeigen häufig eine Reihe Artefakte, darunter Grie- 
seln, welches auf die recht ungenaue Abtastung des Shaders und die Auflö- 
sung zurückfällt. Häufig wird dies durch eine temporale Filterung bekämpft. 
Die auffälligsten Nebeneffekte stammen jedoch von dem Umstand, dass nur 
der Bildschirminhalt (Screen Space) gespiegelt werden kann. 


Stellen Sie sich das anhand der drei unteren Bilder in etwa so vor: Der Sha- 
der zeichnet eine virtuelle Linie (Tracer) von Ihrem Blickfeld auf die Pfütze. 
Von deren Oberfläche wird dieser Strahl im korrekten Winkel reflektiert, dann 
trifft er auf die Türe. Der Pixel in der Pfütze (der etwas gröber ausfällt, um 


Dieser Spiegel zeigt keine Spiegelung - weder 
der Bereich hinter uns noch unsere Spielfigur 
befinden sich im Screen-Space, sie können also 
auch nicht gespiegelt werden. 


Doch verschieben wir 
den Blickwinkel..., 


Noch wirkt die Spiege- 
lung überzeugend. 
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Rechenzeit zu sparen), übernimmt nun einen Teil des Farbwerts des Punk- 
tes, auf den er traf. Das Gleiche gilt für die umliegenden Bildpunkte; zusam- 
men entsteht so eine perspektivisch relativ korrekte und hochauflösende 
Echtzeit-Spiegelung. Allerdings funktioniert dies nur, wenn der Strahl nicht 
einen Punkt außerhalb des Bildes trifft, denn diese werden für die Szene 
nicht berechnet - es käme also eine leere Information zurück, die Reflexion 
bleibt aus. Ändern wir also den Blickwinkel, können wir die Reflexion „aus 
dem Bild wischen“. Und daher bleibt der Spiegel im ersten Bild leer. Der 
Bereich hinter uns existiert nicht im Screen-Space, ebenso wenig unsere 
Spielfigur. 


„enthält der Screen-Space 
nicht ausreichend Daten. N 
wi I) 
Të 


Ähnlich gute und nochmals (im positiven Sinne) auffälligere Spiegelun- 

gen bietet The Division. Auch hier werden mehrere Ansätze genutzt. Die 
Screen-Space-Reflections fallen hochauflösend und präzise aus, werden 
sauber temporal gefiltert und zeigen kaum jene Artefakte, die in vielen 
Spielen auftauchen, wenn sich ein Objekt vor einer Spiegelung befindet: In 
diesem Fall muss das betreffende Objekt vom Shader ausgeschnitten wer- 
den, um nicht selbst erfasst und in der Spiegelung sichtbar zu werden. Sehr 
auffällig tritt dies in Ego-Shootern um das Waffenmodell oder in Third-Per- 
son-Perspektive um die Spielfigur auf. Im Normalfall ist ein deutlicher und 
hässlicher „Rand“ sichtbar, in dem die Reflexion aussetzt. Dies ist in The 


Eine fast perfekte Illusion: Die Kombination aus 
hochauflösenden und sauber gefilterten Screen- 
Space-Reflections und Environment-Cube-Maps 
in The Division. 


Seltener Anblick: Eine Third-Person-Spiegelung 
- der Frontbereich bleibt allerdings leer. 
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Division nur sehr eingeschränkt zu beobachten. Außerdem nutzt der Op- 
tikkracher sich alle paar Frames neu berechnende Cube-Maps, welche die 
Screen-Space-Reflections dort ergänzen, wo sie technisch aussetzen. 


Eine noch nicht vollständig aktualisierte yj 
Cube-Map-Reflection 


Einige Frames später ist die Spiegelung 
neu berechnet und ausgetauscht. 


Í 
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Moderne Grafikeffekte: 
Umgebungsverdeckung 


ie realistische Umsetzung von 
(We und Schatten gehört zu 
den anspruchsvollsten Rendertech- 
niken in Computerspielen bezie- 
hungsweise Computer Generated 
Imagery (CGD. 


Echtzeit-Berechnung 

Während bei gerenderten Filmen 
oder Bildern auf sehr komplexe 
Techniken zurückgegriffen wer- 
den kann und via Raytracing eine 
wirklichkeitsnahe Simulation von 
Licht und Schatten möglich ist, 
wäre dies in Spielen viel zu aufwen- 
dig für aktuelle Hardware. Um den- 
noch ein stimmiges Gesamtbild zu 
erhalten, nutzen Entwickler verein- 


fachte Raytracing-Annäherungen. 


Ein solcher Rendering-Trick ist die 


Umgebungsverdeckung oder Am- 
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bient Occlusion. Dieser Post-Pro- 
cessing-Effekt simuliert den Um- 
stand, dass in der Realität weniger 
Licht in Ecken und enge Spalten ge- 
langt, da ein Teil der eintreffenden 
Strahlen zuvor von umliegenden 
Oberflächen 


und daher nicht bis an diese Stel- 


reflektiert werden 
len vordringen. Ecken und Kan- 
ten wirken daher dunkler. Diese 
Lichtstrahlen (Rays), deren Wege 
(Traces) und Abpraller (Bounces) 
tatsächlich in Echtzeit zu berech- 
nen, würde aktuelle GPUs kom- 


plett überfordern. 


Entwickler-Tricks 

Seit einigen Jahren kommt daher 
in Spielen die Umgebungsverde- 
ckung zum Einsatz. Dabei handelt 
es sich prinzipiell um ein Graustu- 


fen-Bild, das aus dem Tiefen-Buffer 


(auch Depth- oder Z-Buffer) gene- 
riert und im Anschluss über die 
Spielszene gelegt wird (Post-Pro- 


cessing). 


In den Bildern unten auf dieser 
Seite sehen Sie die Spielszene ohne 
Umgebungsverdeckung dann den 
Depthbuffer, welcher die Tiefenin- 
formationen für den zu berechnen- 
den Effekt enthält und schließlich 
die Textur für die Umgebungsver- 
deckung. Während der Post-Pro- 
cessing-Phase wird diese mit dem 
ursprünglichen Bild vermischt 
(Weiß = transparent). 


In den meisten Fällen handelt es 
sich bei der Ambient Occlusion 
zudem um einen Screen-Space-Ef- 
fekt, es können und werden also 


nur Daten genutzt, die sich sicht- 


bar im Bildbereich befinden, was 
zu einigen Nebeneffekten führen 
kann. Neben dem klassischen SSAO 
(Screen-Space-Ambient-Occlusion) 
ist auch Nvidias HBAO+ ein sol- 
cher Bildbereichseffekt. Außerdem 
sorgt der Umstand, dass es sich 
bei dem Post-Processing-Effekt um 
keine „echte“ dreidimensionale 
Berechnung handelt, sondern um 
eine aus 2D-Daten kreierte Textur, 


für einige Unstimmigkeiten. 


Auf den folgenden Seiten wollen 
wir einige Auffälligkeiten doku- 
mentieren. Wir nutzen dafür meh- 
rere Spiele, die auf eine Vielzahl 


verschiedener Techniken setzen. 


Darunter das klassische SSAO, wel- 
ches in The Witcher 3 zudem in 
einer niedrigeren Auflösung be- 
rechnet wird, die „freie“ HBAO-Va- 
riante von Mass Effect: Andromeda, 
sowie verschiedene Implementie- 
rungen von Nvidias HBAO+ und 
schlussendlich das auf 3D-Voxeln 
basierende VXAO, welches die 
nächste Evolutionsstufe des Effekts 
darstellt. 


f 


Dad Dr 
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Umgebungsverdeckung 


Nicht selten fällt direkt ins Auge, dass die Umgebungsverdeckung sehr 
stark akzentuiert wird. Das wirkt zwar dramatisch und „hochqualitativ“, 
ist aber unrealistisch. (1) Da es sich bei der Umgebungsvereckung in 
Mass Effect: Andromeda um einen Screenspace-Effekt handelt, kann der 
Shader den Schatten unter der Kiste nicht vollständig berechnen; nötige 
Informationen werden von unserer Spielfigur verdeckt, der Schatten ver- 
schwindet. Aus diesem Grund ist um Objekte und Figuren eine Art „Halo“ 
oder „Schein“ zu erkennen, in dem die Umgebungsverdeckung aussetzt. 
(2) Achten Sie auf die regulären Schatten: Zum einen ist die Umgebungs- 


Mass Effect Andromeda mit HBAO Voll - 
Nebeneffekte einer Umgebungsverdeckung 
Te, 


The Witcher 3 mit SSAO 
(nicht-native Auflösung) 


verdeckung viel zu dunkel, außerdem kommt das Licht in dieser Szene 
von vorn - dieser Schatten wäre in der Realität unmöglich. (3) SSAO in 
The Witcher 3 wird nicht in voller Auflösung berechnet, daher deckt sich 
die gerenderte AO-Textur nicht 1:1 mit der Spielszene, es entstehen helle 
Ränder um Figuren und Objekte. HBAO+ wird in voller Auflösung berech- 
net und fällt deutlich weniger stark durch Artefakte auf. Außerdem tastet 
HBAOH+ feiner ab und bezieht auch Normal-Maps mit in die Berechnung 
ein. (4) Diese Ecke wirft einen Schatten auf die Bordsteinkante und die 
Mauer darüber. Das wäre in der Realität nicht möglich. 


The Witcher 3 mit HBAO+ 
(native Auflösung) 
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Screen-Space vs. World-Space 


Wie wir bereits im vorherigen Teil dieser Artikel-Reihe erörtert haben, 
kommen Screen-Space-Effekte mit einigen Nebeneffekten daher: Sie 
lassen sich beispielsweise mit dem Verändern des Blickwinkels „aus 
dem Bild wischen“. Dies gilt auch für Nvidias HBAO+, welches wir uns an 
dieser Stelle genauer ansehen wollen. Achten Sie einmal bei (1) auf den 
(relativ undeutlichen) Schatten des hölzernen Balkens rechts. Im ersten 
Bild ist wird die rote Mauer noch verdunkelt, doch bewegen wir unsere 
Spielfigur ein wenig nach links, verschwindet der Schatten plötzlich. Ein 
anderer häufig zu beobachtender Nebeneffekt ist der Schattenkranz um 
unser Waffenmodell bei (2). In Rise of the Tomb Raider können wir dank 
VXAO-Support vergleichen, wie sich eine Screen-Space-Berechnung von 


HBAOH+ in Fallout 4 - Unmögliche Verschattung um das Waffenmodell ... 


Rise of the Tomb Raider mit HBAO+ (Screen-Space) 
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einer World-Space-Berechnung unterscheidet. Die sich bei (3) befindli- 
chen Felsen werden nicht vollständig verschattet, da sich die Schatten 
werfenden Objekte nicht im Screen-Space befinden. Auch der Krug bei (4) 
befindet sich zu nah am Bildschirmrand. Bei VXAO handelt es sich zudem 
um einen voxelbasierten Effekt, daher wird auch das Geröll hinter dem 
Busch vollständig verschattet, während HBAO+ an diesen Stellen teilweise 
ausblendet. VXAO erfasst außerdem die Normal-Maps genauer. Allerdings 
ist der prinzipiell sehr schicke Voxeleffekt nochmals dunkler als das schon 
unrealistisch dunkle HBAO+; viel Leistung benötigt diese fortschrittliche 
Art der Umgebungsverdeckung außerdem. 


— und verschwindende Schatten am Bildschirmrand 


Rise of the Tomb Raider mit VXAO (World-Space) 


er Begriff „Textur“ dürfte den 

meisten Lesern bekannt sein. 
Die zweidimensionalen Tapeten 
begleiten die meisten Spieler seit 
Beginn ihrer Laufbahn. Doch die 
Einsatzgebiete sowie die Art und 
Weise, wie das Texturmodell mit 
der Beleuchtung in Spielen intera- 
giert, haben sich stark gewandelt 
- Stichwort Physically Based Rend- 


ering. 


Mehr Realismus durch 
Wirklichkeitstreue 

Kling logisch, ist aber so: Je näher 
ein Renderverfahren an die Realität 
angenähert wird, desto überzeugen- 
der wirkt die Spielegrafik auf das 
menschliche Auge. Um den Launch 
der aktuellen Konsolengeneration 
begannen die Entwickler, ihre Engi- 
nes auf physikbasierte Rendertech- 


nologien umzustellen. 


Dabei hat Physically Based Rend- 
ering (PBR) keine fest vorgeschrie- 
benen Regeln, sondern ist eher ein 
loses Konzept. Jeder Entwickler 


und jede Engine kann ein solches 
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Moderne Grafikeffekte: 
Texturdarstellung 


Konzept anders umsetzen. Schauen 
wir uns zwei fiktive Spiele mit PBR 
an, unterscheiden sich diese mit 
einiger Wahrscheinlichkeit optisch 
trotz des Wirklichkeitsbezugs der 


Rendertechnologien. 


Prinzipiell funktioniert das Shader- 
modell der Texturen (Physically 
Based Shading, PBS) aber ähnlich: 
Gegenüber konventionellen Tex- 
turmodellen, bei denen ein vom 
Texture-Artist erstelltes Bild oder 
Foto einer Oberfläche samt einem 
Großteil statischer Beleuchtungs- 
und Verschattungsinformationen 
über ein Polygonnetz gelegt wird, 
bekommen PBS-Texturen physikali- 


sche Attribute zugewiesen. 


Die drei Haupteigenschaften sind 
Albedo (Grundfärbung), Micro- 


surface (Oberflächenbeschaffen- 
heit) und Reflectivity (Reflexions- 
verhalten). Diese Eigenschaften 
formen ein PBR-Material, das sich 
je nach virtuellem Lichteinfall an- 
ders verhält und diesem anpasst. 
Dabei gilt teilweise der physikali- 
sche Energieerhaltungssatz. Eine 
spiegelnde Oberfläche etwa kann 
nicht heller strahlen als die ei- 
gentliche Lichtquelle - wobei dies 
nur für Materialien gilt, Post-Pro- 
cessing-Effekte wie Bloom oder 
Screen-Space-Reflections können 


dies torpedieren. 


Winzig und doch 
so wichtig 
Die Rolle der Microsurfaces ist 
dabei eine sehr wichtige. So be- 
stimmen sie, wie stark eintreffen- 


des Licht gestreut wird. Eine raue 


Parallax- vs. Displacement-Mapping 


Die beiden Technologien sind nicht immer ein- 
fach zu unterscheiden. Wir zeigen, wo die größ- 


ten optischen Unterschiede liegen. 


Parallax-Occlusion-Mapping ist eine interes- 
sante Technik, denn anders als beim Displace- 
ment-Mapping, welches zusätzliche Geometrie 
erzeugt, bleibt die Fläche zweidimensional. 


Oberfläche streut das Licht stärker, 
das Material wirkt stumpfer. Diesen 
Effekt können Sie auf der nächsten 
Seite gut anhand des Matsches von 
Battlefield 1 erkennen. 


Dieser besteht aus eine Vielzahl 
dieser Microsurfaces, welche dem 
Re- 


Schlamm unterschiedliche 


flexionseigenschaften verleihen, 
obwohl prinzipiell sehr ähnliche 
Materialien zum Einsatz kommen. 
Dies steigert die Dynamik der Ober- 
fläche, sie ist kaum noch als eine 


Textur identifizierbar. 


Im weiteren Sinne der Microsurfa- 
ces nutzt Battlefield 1 zudem Dis- 
placement-Mapping und Tessellati- 
on, um den Oberflächen zusätzliche 
Tiefe zu verleihen; aus Textur wird 
Geometrie. 


Dieser Umstand macht es auch möglich, die bei- 
den Techniken zu unterscheiden. Blickt man in 
flachem Winkel auf eine betreffende Oberfläche 
oder nutzt eine Kante, um beispielsweise eine 
Mauer zu untersuchen, zeigt sich die Zweidimen- 
sionalität einer Parallax-Map. Kommt stattdessen 
eine Displacement-Map zum Einsatz, wie bei der 
Bodentextur im ganz rechten Bild, lässt sich im 
flachen Winkel zweifelsfrei die zusätzliche Geo- 
metrie erkennen. Diese Technik kann allerdings 
auch reichlich Leistung kosten, da die Grafikkar- 
te viele zusätzliche Polygone berechnen muss, 
insbesondere wenn der Detail- beziehungsweise 
Tessellationsgrad hoch ausfällt. Die Parallax-Map 
kostet nur wenig Leistung und etwas Speicher. 
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Texturen und Oberflächenveredelung 


Konventionelles Texturmodell versus physikbasiertes Modell (PBR): (1) Das 
konventionell texturierte Waffenmodell in Battlefield 4 überzeugt in dieser 
Beleuchtungssituation nicht wirklich, sondern wirkt in dieser Szene wie ein 
Fremdkörper. (2) Die Materialien des Battlefield-1-MGs hingegen greifen das 
eintreffende virtuelle Licht auf und streuen sowie reflektieren die Strahlen 

je nach Oberflächenbeschaffenheit: Das Metall des Zielfernrohrs (3) ist au- 
genkundig ein anderes als jenes, aus dem das Magazin gefertigt wurde. Im 
direkten Vergleich sind auch die Reflexionseigenschaften der Bodentexturen 
sehr auffällig. Mit PBR wird verstärkt auf Microsurfaces gesetzt, eine große 
Fläche wird also aus vielen kleinen zusammengesetzt, deren Materialeigen- 


Das Texturmodell des hier abgebildeten Battlefield 4 ist noch konvention 
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schaften sehr unterschiedlich ausfallen können. Dies lässt sich gut anhand 
des Battlefield-1-Matsches erkennen: Achten Sie einmal auf den eher stumpf 
glänzenden Schlamm in den Abdrücken der Panzerketten (4) und vergleichen 
Sie ihn mit den hell glänzenden Fußabdrücken (5). Darüber hinaus ist der 
Fresnel-Effekt eines physikbasierten Renderers zu erkennen: Je flacher der 
Blickwinkel auf eine Oberfläche fällt, desto stärker reflektiert sie. Battlefield 

1 erzeugt zudem zusätzliche Details via Displacement-Maps und Tessella- 
tion - tatsächliche Geometrie also (6). Battlefield 4 nutzt hingegen nur Nor- 
mal-Mapping, um bei Texturen eine Tiefe zu suggerieren (7). 


Neben einem physikbasierten Renderer, der 
die Reflexionseigenschaften realitätsnah 
simuliert, nutzt Battlefield 1 zudem Tessella- 
tion, um Oberflächen zu veredeln. 


ge = —e 
SE GE 


Oberflächenveredelung via Tessellation und Parallax-Occlusion-Maps: Der 
steigende Detailgrad moderner Spiele erfordert schon seit geraumer Zeit 
mehr als bloß flache Texturen. Seit Jahren ist daher zuerst Bump-, dann Nor- 
mal-Mapping Bestandteil vieler Pixeltapeten. Diese Maps enthalten Höhen- 
informationen in Form einer zusätzlichen Schwarzweiß- (Bump-Map) oder 
farbigen Dreikanal-RGB-Textur (Normal-Map). Letztere wird zumeist aus ei- 
nem zugrundeliegenden, sehr hochauflösenden Polygonmodell generiert und 
auch dazu genutzt, bei 3D-Modellen einen höheren Polygoncount zu sugge- 
rieren. Das nochmals aufwendigere Parallax-Mapping wirkt sehr plastisch (1), 
ist jedoch noch immer eine 2D-Textur (2). Bei dieser Technik wird die Textur 


Im Gegensatz zu Tessellation (Bil- 
dausschnitt), ist die Dreidimension- 
alität einer Parallax-Map (Mauer) 
eine Illusion. Sie funktioniert nur in 
bestimmten Blickwinkeln. 


Hier können Sie die Funk- 
tionsweise einer Parallax- 
Map erkennen. 
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mehrfach übereinander gelegt, dann werden die Texturkoordinaten der ein- 
zelnen Pixeltapeten in Abhängigkeit des Blickwinkels verschoben, was zu 
einem dreidimensionalen Effekt führt. Dabei entsteht jedoch auch eine Art 
„Treppchenbildung“ (3). Zudem wird beim Bewegen des Blickwinkels ein 
„Wabern“ sichtbar, wenn die Texturen verschoben werden. Obendrein gibt es 
Unstimmigkeiten bei der Perspektive: Achten Sie einmal auf den Balken am 
Fenster, es wirkt als schwebe dieser (4). Die „Köngisklasse“ dieser Techniken 
ist das Displacement-Mapping, welches eine Height-Map nutzt und mittels 
dieser (häufig via Tessellation) echte Geometrie erzeugt (5). 


Ein flacher Blickwinkel zur 
Parallax-Map offenbart, dass 
diese zweidimensional ist. 


Ki 
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Moderne Grafikeffekte: 
Kantenglättung 


Mit allem, was die moderne 
Technik hergibt (hier: Ultra-HD- 
Auflösung mit SMAA sowie SSAA), 
verringern sich selbst kleinere 
Kanten in den kaum noch wah- 
rnehmbaren Bereich - mit ihnen 
aber leider auch die Framerate ... 


E 


Selbst 4K ist nicht genug: In diesem Shot nutzen wir neben SMAA das seh 
ineffiziente Supersampling 
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ines der ältesten Probleme der 
Ko. sind flimmernde 
Kanten - bis heute. Trotz immer 
höherer Auflösungen bleiben die 
Nebeneffekte der Rastergrafik be- 
stehen, es kommt zu Pixelflimmern 


oder fachlich korrekter: Aliasing. 


Wie Aliasing entsteht 
Aliasing tritt auf, da Inhalte, die 
mit einem Rasterizer gerendert 
werden, in ein Pixelraster passen 
müssen. Dieses Raster beschreibt 
im Normalfall die gewählte Auflö- 
sung, mit der die Grafik berechnet 
wird. Einfach formuliert: Je gröber 
die Auflösung und damit das Raster 
und je feiner der darin dargestellte 
Inhalt, desto flimmeranfälliger wird 
das Gesamtbild. 


Noch deutlicher wird Aliasing, 
wenn das Bild nicht statisch ist, 
sondern dem Wandel unterworfen 
ist - ein bei Spielen sehr häufiger 
Umstand. Bewegt sich der Bildin- 
halt, beispielsweise durch eine Ein- 
gabe des Spielers, so verschiebt sich 
auch der Inhalt des Rasters. Je nach 
Blickwinkel, Entfernung und Be- 
wegung kann dies wiederum dazu 
führen, dass Elemente, die zuvor in 
das Raster passten, nun zu fein aus- 
fallen und verschwinden, während 
andere Feinheiten, die zuvor durch 
das Raster fielen, dank der Reposi- 
tionierung nun angezeigt werden 
können. Dieses An- und Ausflackern 
der Pixel bei Bewegung ist beson- 


ders auffällig und störend. 


Besonders betroffen sind neben Po- 
lygonkanten Texturen und Shader, 
die deutlich komplexer ausfallen, 


als noch vor einigen Jahren. Die 


Pixeltapeten bestehen heute nicht 
mehr aus einer einfachen Bitmap, 
sondern werden aus vielen einzel- 
nen Maps zusammengesetzt. Dar- 
unter fallen Normal-Maps für Tie- 
feninformationen, Specular-Maps 
für Glanz und Highlights und Al- 
pha-Test-Maps für Transparenzen. 
All diese Elemente neigen in der 
Praxis zu starkem Flimmern - und 
aufgrund der Feinheit der in Bewe- 
gung hochfrequenten Inhalte stört 
dies selbst bei Auflösungen wie Ult- 
ra HD und gar darüber noch. Beson- 
ders Alpha-Test-Texturen, die häufig 
für filigrane Inhalte wie Vegetation, 
Maschendrahtzäune oder Haare 
zum Einsatz kommen, sind proble- 


matisch. 


Ein Blick zurück 

Schon vor gut 20 Jahren wurden 
Kantenglättungsverfahren einge- 
setzt. Lange Zeit sehr populär war 
dabei 


glättung. Diese wurde entwickelt, 


die Multisampling-Kanten- 


um das wesentlich teurere Super- 
sampling abzulösen. Das lateinische 
„Super“ bedeutet dabei „von oben 
herab, über“, „Sampling“ steht für 
„Abtastung“. Das Bild wird also von 
einem höheren Informationsgehalt 
auf einen niedrigeren herunterge- 
rechnet, jeder Bildpunkt enthält 
nach dem Komprimieren des In- 
halts Informationen von mehreren 
benachbarten Pixeln. Beim Herun- 
terrechnen gehen zwar einige Fein- 
heiten verloren, trotzdem enthält 
das Bild mehr Informationen als ein 


in nativer Auflösung berechnetes. 


Vereinfachte Variante 

Beim Multisampling werden indes 
nicht alle Pixel mehrfach abgetas- 
tet, sondern nur jene, die an Po- 
lygonkanten liegen. Alle anderen 
Pixel werden nur einmal abgetas- 
tet. Damit bleiben aber auch die 
restlichen Inhalte, darunter Textu- 
ren, Shader und die häufig beson- 
ders flimmeranfälligen Alpha-Tests 


vom regulären Multisampling aus- 


geschlossen und müssen aufwen- 
dig zusätzlich inkludiert werden 
(zum Beispiel per Alpha-to-Cover- 
age-Filterung, Transparenz-Super- 


sampling). 


Höhere Polygondichte 

Modernere Titel haben nicht nur 
eine erhöhte Polygondichte, son- 
dern zudem feine Inhalte abseits 
der Polygonkanten, welche Multi- 
sampling nicht erfasst. Zwar gibt 
es die Möglichkeit, MSAA zu erwei- 
tern, etwa durch Transparenz-Multi- 
sampling, doch ein solches erhöht 
auch die Leistungskosten und den 


Speicherbedarf. 


Trotz dieser Erweiterungen lieferte 
das Multisampling ab etwa dem Jah- 
re 2007 in vielen Fällen nicht jene 
befriedigende Glättung, die Spieler 
von früheren Titeln gewohnt waren. 
Zudem stieg der Performance-Hun- 
ger der ehemals günstigen Kanten- 
glättung steil an - was den Unter- 
gang von MSAA einleitete, der bis 
heute anhält. Daran tragen vor allem 
aktuelle Rendertechniken Schuld. 


Deferred Rendering 

und Multisampling 
Verstärkter Einsatz von Post-Proces- 
sing-Effekten, insbesondere aber 
Deferred Rendering torpedieren 
den Einsatz von MSAA in aktuellen 
Spielen. Beim Deferred Rendering 
werden die Berechnungen unter 
anderem von Geometrie und Be- 
leuchtung voneinander getrennt 


und in eigene Puffer gespeichert. 


Einzelne Komponenten des Bildes 
können simultan berechnet wer- 
den, was tendenziell die Auslastung 
der Hardware und damit deren Effi- 
zienz erhöht. Erst im Anschluss wird 
aus mehreren, von der GPU berech- 
neten Einzelbildern, darunter Tiefe 
(Depth), Ausrichtung (Normals) 
und Farbe (Albedo), dazu Licht- und 
Schattenberechnungen und eventu- 
ell zusätzlichen Komponenten, bei- 
spielsweise für das Post-Processing, 
das fertige Bild erstellt. 


Dieses Renderverfahren ist inkom- 
patibel zu MSAA, welches im Grun- 


de jeden dieser Bildpuffer einzeln 


abtasten müsste, um die korrekten 
Farbwerte für die zu glättenden Pi- 
xel zu ermitteln. Dieser Umstand er- 
höht die Performance-Kosten sowie 
den Speicherbedarf von MSAA dras- 
tisch, häufig setzt das Multisampling 
in Kombination mit Deferred Rend- 
ering auch aus oder führt zu Arte- 
fakten. 


Der Siegeszug des Deferred Ren- 
dering ist also neben der komple- 
xer gewordenen Grafik und den 
feineren Inhalten außerhalb der 
Polygonkanten ein Grund für das 
langsame Aussterben des Multi- 


sampling-Antialiasings. 


Von Post-Process-AA 

zu TAA 

Die Spieleschmieden setzten viele 
Jahre fast ausschließlich auf Post-Pro- 
cess-Antialiasing, um das Bild zu 
glätten, darunter neben MSAA etwa 
auch das wenig beliebte, weil die 
Bildschärfe stark beeinträchtigende 
FXAA. PC-Spieler mit hohem Qua- 
litätsanspruch 


investierten indes 


überschüssige Leistung in optiona- 


Anti-Aliasing- Techniken (Auswahl) 
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les Super- oder Downsampling. Fort- 
schrittliche Render-Techniken, da- 
runter Physically Based Rendering 
und die technischen Fähigkeiten 
- aber auch deren Schwächen - der 
aktuelle Konsolengeneration, lie- 
ßen aber bald darauf langsam eine 
neue Art Kantenglättungsverfahren 


entstehen. 


Temporale 
Kantenglättung 

In den vergangenen Jahren gab 
es einen deutlichen Trend: Beina- 
he alle Entwickler bauen aktuell 
temporale Komponenten in ihre 
Engines ein. Diese nutzen meh- 
rere hintereinander verrechnete 
Frames, um zusätzliche Bildinfor- 
mationen zu sammeln; dies dient 
häufig mehreren Zwecken: So 
können beispielsweise grieseli- 
ge Screen-Space-Reflections oder 
die Umgebungsverdeckung über 
mehrere Frames generiert werden. 
Durch Akkumulation - also eine 
Verdichtung des Effekts - wird ein 
noch besseres, höherauflösenderes 


und saubereres Ergebnis erzielt. 


Kürzel Bedeutung Merkmale/Funktion 
FSAA Full-Screen/Scene-Anti-Aliasing Allgemeiner Begriff für Vollbild-Anti-Aliasing 
SSAA Super-Sampling-Anti-Aliasing Überbegriff für mehrfaches Sampling aller Pixel 
OGSSAA Ordered Grid Super-Sampling-AA SSAA mit geordnetem Abtastmuster 
SGSSAA Sparse Grid Super-Sampling-AA SSAA mit gestreutem Abtastmuster 
SMAA Enhanced Subpixel Morphological Anti Aliasing | Extrem teures, kaum nutzbares Supersampling 
SMAA 2Tx Enhanced Subpixel Morphological Anti Aliasing | Erweiterte Version des morphologischen SMAA-Post-Processings 
2Tx 
MSAA Multi-Sampling-Anti-Aliasing Überbegriff für mehrfaches Sampling von Polygonkantenpixeln 
SGMSAA Sparse Grid Multi-Sampling-AA MSAA mit gestreutem Muster — ab etwa 2006 lange Zeit Quasi-Standard 
TMSAA Transparency Multi-Sampling-AA Nvidias MSAA für transparente Texturen 
TSSAA Transparency Super-Sampling-AA Nvidias SSAA für transparente Texturen 
AAA Adaptive Anti-Aliasing AMDs adaptives AA für transparente Texturen 
CSAA Coverage Sample Anti-Aliasing Nvidias Erweiterung von MSAA 
EQAA Enhanced-Quality Anti-Aliasing AMDs Erweiterung von MSAA (erst seit der HD-6900-Reihe verfügbar) 
CFAA Custom Filter Anti-Aliasing AMDs verbesserte Downfilter für glattere Bilder; fungiert als „Aufsatz“ für MSAA oder SSAA (verfügbar ab HD 2000) 
MLAA Morphological Anti-Aliasing AMDs Post-Processing-AA in der Radeon-Software 
FXAA Fast Approximate Anti-Aliasing Günstiges, kontrastbasiertes Post-Process-AA 
SRAA Subpixel Reconstruction AA Fortschrittliches Post-AA, derzeit aber nirgendwo im Einsatz 
EER Edge-Equivalent Resolution Qualitätsmerkmal von FSAA (mehr = besser) — aber kein eigenes AA! 
TAA Temporales Anti-Aliasing Überbegriff für eine Glättung mit Hilfe mehrerer, aufeinanderfolgender Bilder 
TXAA Temporal Approximate AA Shader-basiertes Verfahren von Nvidia 
DLSS Deep Learning Super Sampling Kl-gestützte Kantenglättung von Nvidia; wahlweise interne oder externe Hochrechnung („Upscaling“) von Auflösungen 
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Multi-Sample-AA und 
Forward-Plus-Rendering 


Noch gibt es Spiele, welche MSAA unterstützen. Insbesondere in eini- 
gen Rennspielen ist die altehrwürdige Hardware-Kantenglättung noch 
häufiger aufzutreffen. 


Diese, darunter etwa Codemasters‘ Dirt-Reihe oder Forza Hori- 

zon 3 und 4 setzen in solchen Fällen jedoch häufig auf einen For- 
ward-Plus-Renderer, eine Erweiterung des klassischen, für viele aktuel- 
le Render-Techniken aber ungeeigneten Forward-Renderers. 


Mit Forward-Plus-Rendering werden einige der größten Schwachstel- 
len des Forward-Renderings umgangen, darunter die komplexe Be- 
leuchtung mit mehreren dynamischen Lichtquellen. Doch für viele mo- 
derne Effekte, Render- und Beleuchtungstechniken ist auch Forward 
Plus nicht wirklich gut geeignet. Es ist also nur eine Frage der Zeit, 

bis auch die letzten Spiele auf das vielseitigere und bei komplexerer 
Beleuchtung potenziell auch effizientere und genauere Deferred-Rend- 
ering umsteigen. 


Forza Horizon 4 nutzt dank Forward-Plus-Rendering noch eine gut 
greifende und relativ effiziente Multisampling-Kantenglättung samt Al- 
pha-to-Coverage für Transparenzen 


RotTR nervte noch mit 


extrem flimmeranfälligem 
Content sowie unzure- 
ichender FXAA-, SMAA- 

und maßlos teurer SSAA- : 
Kantenglättung, das jüngste 
Tomb Raider setzt auf TAA 


78 So funktioniert ein PC 


Besonders interessant für Spieler 
ist die Temporale Kantenglättung 
(TAA). TAA existiert in vielfältiger 
Form und kann sich von Titel zu 
Titel unterscheiden. Das Prinzip ist 
aber immer ähnlich: Aus mehreren 
Frames werden Informationen ge- 
wonnen und so verrechnet, dass 
sie eine auffällige Pixelation ver- 
hindern. Dabei wirkt ein TAA auf 
das gesamte Bild, jeder Pixel wird 
durch die zeitliche Komponente 
mehrfach abgetastet („sampled“), 
weshalb einige temporale Kanten- 
glättungen auch als Temporales Su- 
persampling bekannt sind. Es han- 
delt sich bei dieser Bezeichnung 
aber nicht um klassisches SSAA mit 
temporalem Ansatz, die tatsächli- 
che Renderauflösung pro Frame ist 
nicht erhöht. 


TAA hat allerdings auch einige 
handfeste Nachteile, so sorgt das 
Verrechnen über die Zeit für eine 
mehr oder minder starke Unschärfe 
und kann insbesondere bei niedri- 
gen Bildraten mit Schlierenbildung 
beziehungsweise Ghosting deutlich 


nerven. 


TAA in aktuellen Spielen 
Wie sehr ein TAA die grafischen 
Inhalte in Spielen beinträchtigen 
kann, lässt sich gut anhand des 
jüngsten Lara-Croft-Abenteuers 
Shadow of the Tomb Raider erah- 
nen. Der Vorgänger setzte noch auf 
FXAA, SMAA (extrem teures, kaum 
nutzbares Supersampling) und war 
aufgrund feiner, häufig kontrast- 
starker Inhalte extrem flimmeran- 
fällig. Der Nachfolger ist ohne AA 
mindestens genauso flimmrig, ja 
neigt aufgrund häufig auftretender 
Dithering-Artefakte insbesondere 
bei Laras dynamischer Haarpracht 
vielleicht sogar zu noch stärkerem 
Flimmern und ist ohne Kantenglät- 


tung kaum genießbar. 


Allerdings setzt Shadow ofthe Tomb 


Raider auf zwei unterschiedliche 


Varianten Temporaler Kantenglät- 
tungen, neben TAA auch auf eine 
mit zeitlicher Komponente erwei- 
terte Version des morphologischen 
SMAA-Post-Processings, welches in 
Form von SMAA2Tx auch in ande- 
ren Spielen Verwendung findet. In- 
teressanterweise gibt es neben dem 
regulären SMAA mit SMAA4x auch 
einen Ansatz, der die Post-Proces- 
sing-Kantenglättung mit MSAA ver- 
bindet. Allerdings bleibt SMAA4x 
in Sachen Effizienz klar hinter dem 
angebotenen TAA und SMAA2TXx 
zurück. Shadow of the Tomb Raider 
setzt - wie übrigens viele aktuelle 
Spiele - offensichtlich einen der- 
art starken Fokus auf die temporale 
Komponente und ihre Fähigkeiten, 
dass ein Betrieb ohne Temporales 
Antialiasing kaum mehr sinnvoll er- 
scheint - oder gar von den Entwick- 


lern gar nicht mehr gestattet wird. 


Temporal-AA 

als Standard? 

Mit solch einem Fokus ist das jüngs- 
te Tomb Raider nicht allein. So lässt 
sich das TAA in Star Wars Battle- 
front 2 und Battlefield 5 nur noch 
in zwei Stufen wählen, nicht aber 
mehr deaktivieren. Und auch viele 
andere Titel setzen TAA für ein flim- 
merarmes Bild beinahe schon vor- 


aus - selbst in hohen Auflösungen. 


Ein weiteres Beispiel ist Assassin's 
Creed Odyssey. Bereits seit gerau- 
mer Zeit verwendet Ubisoft ausgie- 
big Dithering für Überblendungen 
beim Level-of-Detail, aber auch für 
einige Transparenztexturen, dar- 
unter Haar oder halbtransparente 
Objekte wie Segel oder dekorative 
Stoffbahnen. Das TAA wirkt bei den 
pixeligen Transitionen bei Detail- 
wechseln oder bei der Darstellung 
von Haaren - ähnlich wie bei Laras 
Haaren im Beispiel von Shadow of 
the Tomb Raider - ein wenig wie 
eine Rekonstruktionstechnik und 
sorgt dank der zeitlichen Kompo- 


nente für ein deutlich saubereres, 


ruhigeres und homogeneres Bild. 
Die ohne Kantenglättung extrem 
grieselig und unruhig wirkende 
Optik erhält erst durch das TAA den 
letzten Schliff. 


Quasi-Standard 

Es ist allein wegen dieser Umstände 
nicht verwunderlich, dass beinahe 
jedes aktuelle Spiel auf eine tem- 
porale Kantenglättung setzt. Die 
feinen Inhalte, hohe Detailgrade 
und Sichtweiten sowie detaillierte 
Texturen und Modelle begünstigen 
allesamt Aliasing, welches selbst in 
hohen Auflösungen sehr störend 


ausfallen kann. 


Des Weiteren kommt TAA auch zur 


Berechnung von einigen Post-Pro- 


cess-Effekten wie Screen-Space-Re- 
flections und zur Kaschierung von 
Dithering-, aber auch Checkerboar- 
ding und anderen Upscaling-Arte- 


fakten zum Einsatz. 


Letzerer Umstand ist ein weiterer 
Punkt, der TAA in vielen aktuellen 
Titeln im Grunde unverzichtbar 
macht: Die aktuelle Konsolengene- 
ration hat feste Auflösungen weit- 
gehend abgeschafft. Statt 1080p, 
1440p oder 2160p nativ anzuzeigen, 
wird die Auflösung in modernen 
Konsolenspielen häufig dynamisch 
angepasst. Dieser Umstand hat sich 
nach dem Erscheinen der überar- 
beiteten Sony- und Microsoft-Geräte 
PS4 Pro und Xbox One X nochmals 


verstärkt. Werden diese Konsolen 


an ein 1080p-Display angeschlos- 
sen, bieten sie oft die Möglichkeit, 
das Full-HD-Bild per dynamischem 


Supersampling aufzuwerten. 


TAA als Bild- 
verbesserung 

Bei Konsolen kann ein entspre- 
chend implementiertes TAA dyna- 
misches Upscaling ermöglichen, 
die Technik funktioniert aber 
grundsätzlich auch andersherum. 
Anstatt also bei anspruchsvollen 
Szenen und zu wenig GPU-Leistung 
die Auflösung dynamisch zu redu- 
zieren, ist es auch möglich, die Auf- 
lösung dynamisch zu erhöhen, falls 
die Bildrate hoch genug ausfällt und 
die Grafikkarte noch über Reserven 


verfügt. 


Kantenglättung bei Tomb Raider 


Ohne Kantenglättung ist Shadow 
of the Tomb Raider sehr flimme- 
ranfällig. Dies geht nicht nur auf 
feine Inhalte zurück, sondern auch 
auf das genutzte Dithering, das bei 
LoD und einigen Transparenzen, 
darunter Laras Haaren eingesetzt 
wird. Eine temporale Kantenglät- 
tung wirkt bei diesen pixeligen 
Elementen ähnlich einer Rekons- 
truktionstechnik und sorgt für ein 
deutlich homogeneres Bild. SMAA 
mit MSAA wirkt etwas schärfer als 
TAA, glättet aber weniger effektiv 
und kostet Leistung sowie zusätz- 
lichen Speicher. 


Full HD, SMAA 


Full HD, keine Kantenglättung 
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Einige aktuelle Spiele unterstützen 
bereits eine optional dynamische 
Renderskalierung, die bei ausrei- 
chender hoher Performance über 
die gewählte Auflösung hinaus 
gehen kann, um so das Bild dyna- 
misch zu verbessern. Titanfall 2 un- 
terstützt beispielsweise ein TAA mit 
dynamischem Supersampling, wel- 
ches - bei ausreichend GPU-Power 
- eine Auflösung bis 16K erreichen 
kann. Ubisoft bietet in AC Origins 
und Odyssey ebenfalls eine solche 
Option, versteckt sie allerdings ein 


wenig. 


Allerdings sind Spiele mit dynami- 
schem Supersampling auf dem PC 
noch relativ selten. Viel häufiger ist 


eine auf einen Wert festgelegte Ren- 


Full HD, keine Kantenglättung 
8 5 i 
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Final Fantasy 15 ist der erste Titel mit Nvidas Kl-befeuerten Deep Learning 


Supersampling (DLSS). Das Ergebnis überzeugt, wirkt optisch und artistisch 


aber leicht verändert 


TAA bei Odyssey aktivieren 


Assassin‘s Creed Odyssey setzt beinahe zwingend auf TAA. Feine In- 
halte sowie das LoD und Transparenzen mit auffälligen Dithering-Arte- 
fakten machen dies fast zur Notwendigkeit. Ubisoft bietet glücklicher- 
weise die Option eines temporalen Anti-Aliasings mit dynamischem 
Supersampling; diese ist allerdings ein wenig versteckt. 


Zuerst müssen Sie Ihre gewünschte Auflösung wählen, dann die Ren- 
derskalierung auf einen Wert größer 100 Prozent stellen und im Grafik- 
menü bei der Kantenglättung die höchste Stufe auswählen. 


Full HD, TAA, dyn. SSAA 


au. 1m |" 
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Schließlich müssen Sie noch 
ihre gewünschte Framerate 
bei „Adaptiver Qualität“ fest- 
legen. Wenn Ihre Leistung 
ausreicht, appliziert Odyssey 
nun Supersampling, die Qua- 
lität reicht von der gewählten 
Renderskalierung (Beispiel: 
150 % entspricht 1,5 x 1,5 
OGSSAA) als Maximum bis zu 
der ausgewählten Auflösung 
(also etwa Full HD) hinab. 


Das beste Resultat erzielen 
Sie mit einem zusätzlichen 
Framelock, welches Ihrer 
Hardware noch etwas Spiel- 
raum bietet. 


derskalierung vorgegeben, häufig 
geht diese auch nur von 100 Pro- 
zent ausgehend nach unten. Spiele 
auf dem PC unterstützen demnach 
häufiger Upscaling denn Down- 
sampling, ein Umstand, der ob der 
hohen Leistung von PC-Komponen- 
ten etwas befremdlich wirkt. PS4 
Pro und Xbox One X sind da (zu- 
mindest bei Full-HD-Darstellung) 


schon etwas weiter. 


TAA mit KI- 
Unterstützung 

Am Horizont zeichnet sich bereits 
eine neue, sehr vielversprechende 
Technik ab. Mittels KI-Berechnun- 
gen können niedrig aufgelöste und 
pixelige Bilder auf eine überzeu- 
gende Art verbessert werden, selbst 
Hobby-Entwickler und Modder 
setzen bei der Aufbereitung von 
Grafiken bereits auf solch schlaue 
Bildverbesserer (siehe Kasten auf 


der rechten Seite). 


Deep Learning- 

Super-Sampling 

Mit der Turing-Architektur und de- 
ren Tensor-Kernen stellte Nvidia in- 
des Deep Learning Super Sampling 
vor. Dabei handelt es sich im Grun- 
de um zwei verschiedene Ansätze: 
DLSS2x ist dazu gedacht, die GPU 
ein Spiel mit der gewählten Auflö- 
sungsstufe berechnen zu lassen, die 
Tensorkerne und KI-Algorithmen 
werden anschließend dazu genutzt, 
um das Bild intelligent zu verbes- 
sern. Diese Form von DLSS ist aku- 
tell jedoch noch in keinem Spiel 


nicht verfügbar. 


Die andere Form von DLSS ist ein 
KlI-unterstütztes Upscaling. Mit die- 
sem wird die Auflösung gegenüber 
der im Grafikmenü gewählten redu- 
ziert, das Bild dann hochgerechnet 
und von der KI verbessert. Diese Art 
von DLSS können wir uns bereits 
in einem Spiel zu Gemüte führen: 
Final Fantasy 15 unterstützt DLSS. 


Allerdings gibt es dabei eine starke 


Einschränkung, denn erstens funk- 
tioniert DLSS nur auf Turing-GPUs 
mit Tensor-Kernen, zweitens steht 
bislang nur eine Auflösung zur 
Verfügung. Nur wenn Sie mit einer 
passenden GPU im Optionsmenü 
3.840 x 2.160 Pixel auswählen, ist 
DLSS verfügbar. 


Supercomputer 

im Hintergrund 

Die eingeschränkte Wahl an Auflö- 
sungen ist dem Umstand geschul- 
det, dass Nvidia Supercomputer und 
Server mit entsprechenden Daten 
füttern muss, um die KI zu „lehren“. 
Für jedes Spiel und jede Auflösung 
müssen also separate Datensätze 
angelegt werden. Dies dürfte auch 
bedeuten, dass Nvidia den Support 
für ein Spiel oder eine spezifische 
Auflösung jederzeit einstellen und 
DLSS damit unbrauchbar werden 
könnte. Es bedeutet darüber hin- 
aus, dass Nvidia für jedes Spiel und 
jede Auflösung eine Investition in 
Form von Rechen- und Serverzeit 
vorauszahlen muss - ein flächen- 
deckender Support für zukünftige 
Spiele scheint allein deshalb wenig 


wahrscheinlich. 


Neben Final Fantasy 15 ist jedoch 
bereits Unterstützung für mehrere 
Dutzend Titel angekündigt, darun- 
ter befindet sich auch Battlefield 5, 
welches mit seiner Raytracing-Im- 
plementation als besonders ge- 
eignet für das leistungssparende 


KI-Upscaling erscheint. 


Schick, aber noch 

nicht perfekt 

Aktuell lassen sich die Auswirkun- 
gen von DLSS wie erwähnt nur in 
einem Spiel beobachten. Das mit 
sämtlichen (Nvidia-JEffekten ext- 
rem anspruchsvolle Final Fantasy 15 
ist ein dankbares Demonstrations- 
objekt, da die stark flimmeranfällige 
Grafik von einem eher unbefriedi- 
genden TAA geglättet wird. Selbst in 
Ultra HD lässt dieses das Bild grob, 


unsauber und zugleich unscharf 


wirken. 


Aktivieren wir DLSS, so wird die 
Grafik statt mit 3.840 x 2.160 Pi- 
xeln mit 2.560 x 1.440 Bildpunkten 
berechnet. DLSS bereitet das Bild 
dann mit Hilfe hochauflösenden 
Materials von Nvidias Serverfarmen 
intelligent und unterstützt von ei- 
ner temporalen Kantenglättung auf. 
Das mit DLSS aufgewertete WQHD- 
Bild wirkt wesentlich sauberer und 
ruhiger als selbst die Präsentation 
in Ultra HD. Die Kanten sind sehr 
glatt, die grieselige Unschärfe des 
standardmäßig in Final Fantasy 15 
eingesetzten TAAs reduziert sich, 
die pixeligen Haare der Figuren und 
Protagonisten sowie die Vegetation 


werden wirksam geglättet. 


Veränderte Optik 

Final Fantasy 15 ist mit DLSS für das 
Auge wesentlich angenehmer und 
weniger anstrengend. Allerdings 
fallen auch sofort deutliche opti- 
sche Unterschiede auf, denn voll- 
ständig originalgetreu hinterlässt 


das KI-Upscaling die Optik nicht. 


Effekte wie Schatten, Screen-Spa- 
ce-Reflections und die Umgebungs- 
verdeckung verändern ihre Struktur 
und Dichte, wohl der niedrigeren 
internen Auflösung geschuldet. Bei 
einigen Reflexionen und Verschat- 
tungen treten mit DLSS auch klei- 
nere Fehldarstellungen auf, die mit 
regulärer, nativ berechneter Auflö- 
sung weder in WQHD noch UHD 


zu beobachten sind. 


Mit Pinsel und Ölfarbe 


Doch die größten Unterschiede 
zeigen sich bei der Vegetationsdar- 
stellung und anderen feinen Ele- 
menten wie Haaren. Falls Sie sich 
schon einmal mit Pixel-Art-Shadern 
beschäftigt haben, der Look dieser 
feinen Elemente erinnert entfernt 
an Scaler wie SAl2x oder SuperSAl. 


Etwas abstrakter formuliert: Haare, 
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Wie ESGRAN ältere Spiele 
aufhübschen kann 


Nicht nur Nvidia setzt mit DLSS und seinen Ki-gestütztes Upscaling 
Geforce-RTX-Grafikkarten auf Kl, sondern = = 
auch Modder wollen auf diese Weise ältere, 
aber immer noch beliebte Spiele visuell ver- 
schönern 


Ein beeindruckendes Beispiel ist dem Mod- 
der DassiD gelungen, der eine Technik na- 
mens Enhanced Super-Resolution Generative 
Adversarial Networks (ESRGAN) verwendet. 
Damit wurden die Texturen von The Elder 
Scrolls: Morrowind durch Kl-Upscaling ver- 
bessert, ohne dass dabei störende Artefakte 
entstehen. Das Resultat sind Texturen mit der 
vierfachen Auflösung der Originalversionen 
(siehe Gesichts-Bilder unten). e "4 


Original-Sprite aus Monkey Island 


Das Prinzip basiert auf zwei neuronalen 
Netzen. Der etwas vereinfachte Ansatz 
funktioniert wie folgt: Von den vorhandenen 
Grafiken werden niedrig aufgelöste Varianten 
erstellt. Das erste neuronale Netz erzeugt nun 
hochauflösende Fälschungen dieser pixeligen 
Ausgangsgrafiken. Das zweite neuronale Netz 
urteilt anschließend, wie gut das errechne- 

te Bild zum Originalmaterial passt. Ist das 
Ergebnis zufriedenstellend, kann es auch 

auf das Originalmaterial selbst angewendet 
werden. 


Kein Treppeneffekt mehr beim Dach oder Baum. Die fil- 
igranen Strukturen, die beim Upscaling sonst verloren gehen, 
wurden durch die KI erhalten 


ESRGAN zeigt, zu was es in der Lage ist: Die filigranen Strukturen im Auge rechts sind so nicht im Originalbild 
enthalten und wurden überzeugend hinzuhalluziniert 


Vegetation und einige andere Ele- Fantasy 15 stilverändernd, wenn per-Sampling stärker als in Ultra-HD 


mente wirken bisweilen ein wenig auch nur geringfügig. mit TAA. Außerdem kann mit DLSS 


wie mit einem Pinsel und mit Ölfar- in einigen Situationen ein starkes 
Nachteil: Flimmern 
und Ghosting 


Es gibt außerdem neben den Effek- 


be gemalt. Ghosting provoziert werden. 


Das ist per se nichts Schlechtes, der Dennoch würden wir die hoch- 


Look passt zudem zu Final Fantasy, ten einige weitere Elemente, wel- skalierte und Kl-verbesserte 


zudem erhöht sich mit DLSS die 


Leistung gegenüber Ultra HD mit 
TAA und trotzdem wirkt das Bild 
sauberer - aber es ist eben nicht das 
gleiche Ergebnis. DLSS ist in Final 


che die gegenüber UHD niedrigere 
Renderauflösung dokumentieren. 
Einige feine Strukturen wie Zäune 
oder die Spalten in Holzbrücken 


flimmern mit Deep-Learning-Su- 


WOHD-Präsentation dem UHD-Ori- 
ginal wohl vorziehen, der höheren 
TAA-Un- 
schärfe und besserer Performance 
sei Dank. 


Sauberkeit, geringerer 
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Kantenglättung 


Rainbow Six Siege bietet gutes Anschauungsmaterial, wenn es um Kanten- 
glättungen geht. Zum einen unterstützt der Titel mehrere technische Her- 
angehensweisen, darunter neben FXAA auch Nvidias TXAA, MSAA, sowie 
eine weitere temporale Kantenglättung. Zum anderen ist die Optik des Tak- 
tik-Shooters eher zweckdienlich gehalten: Weder blenden überbordernde 
Post-Processing-Effekte, noch lenken spektakuläre Objekte und Details das 
Auge ab. Dieses Bild wurde in Ultra HD geschossen. Trotz der hohen Auflö- 
sung sind Pixeltreppen klar zu identifizieren. Auf einem großen Display und 
in Bewegung ist das Geflimmer selbst in Ultra HD sehr lästig und insbeson- 


Kein Antialiasing 


FXAA (hoch) 


dere bei hohen Kontrasten kaum zu übersehen (1), (4). Das Zuschalten von 
FXAA hilft nur wenig und kommt mit zusätzlicher Unschärfe daher - insbe- 
sondere filigrane Strukturen wie die Vegetation verlieren Details, behalten in 
Bewegung aber gleichzeitig eine hohe Unruhe bei (2). Das langsam ausster- 
bende Multisampling demonstriert mit schlechter Effektivität sowie hohen 
Performance-Kosten und damit einer eher miserablen Effizienz, weshalb 
MSAA in aktuellen Titeln kaum noch zum Einsatz kommt (3). Das auf MSAA 
basierende TXAA ist ein wenig schärfer als das TAA, kostet allerdings viel 
Leistung und bietet somit recht wenig Anreiz, es dem TAA vorzuziehen. 


4x MSAA 


a EE et EE? 
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ie Tiefenschärfe sorgt für Un- 
(Re aber auch für mehr 
Tiefe und hilft beim Herausstellen 
von Bildinhalten. Und sie ist außer- 
dem ein visueller Trick, um Blick 
und Aufmerksamkeit des Betrach- 


ters zu steuern. 


Unscharfer Hintergrund 

Die Tiefenschärfe simuliert die so- 
genannte Akkomodation, also die 
dynamische Brechkraft der Linse 
des menschlichen Augens. Dies 
kann man leicht selbst überprü- 
fen: Nimmt man einen Finger, hält 
diesen etwa 30 bis 50 cm vor seine 
Augen und fokussiert ihn, wird da- 
hinter Liegendes unscharf. Nimmt 
man ein Objekt im Hintergrund ins 
Visier, wird wiederum der Finger 
undeutlich. Das liegt daran, dass wir 
im dreidimensionalen Raum schen 
und sich die Brechkraft der Linsen 
unserer Augen ändert, je nachdem, 
wie weit das fokussierte Objekt ent- 


fernt ist. 


Vor dem Fokus sind wir weit-, da- 
hinter kurzsichtig. Schauen wir da- 
gegen auf einen Bildschirm, eine 
Kinoleinwand oder ein Foto und 
versuchen, in einem dortigen Bild 
den gleichen Effekt herbeizufüh- 
ren, so funktioniert das nicht. Das 
ist durchaus logisch, schließlich 
blicken wir auf eine zweidimensio- 
nale Fläche. Ähnliches gilt übrigens 
selbst für VR-Brillen - dort schauen 
wir mit jedem Auge auf eine Fläche. 
Das gaukelt uns zwar Dreidimensi- 
onalität vor, doch ist echtes räumli- 
ches Sehen und Fokussieren auch 
in VR nicht möglich. 

Schauen Sie sich einmal den 
Screenshot auf der rechten Seite 
an: Rainbow Six Siege nutzt hier 
keine Tiefenschärfe. Setzen Sie ih- 
ren Fokus zum Beispiel einmal auf 
die Kimme des Gewehrs. Wird das 
dahinterliegende Polizeiauto un- 
scharf? Nein, wird es nicht. Aber 


das sollte es, denn normalerweise 
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Moderne Grafikeffekte: 
Tiefenschärfe 


würde sich unser Auge auf diesen 
Punkt einstellen, Dahinterliegendes 
würden wir wahrnehmen, als wä- 


ren wir kurzsichtig. 


Auch Elemente vor dem Fokus- 
punkt wären unscharf, dort wären 
wir weitsichtig. Bei diesem Um- 
stand lässt sich unser Sehen also 
nicht austricksen: Gleich ob Sie 
das Bild nun im Druck, auf Ihrem 
Monitor sehen oder gar durch eine 
VR-Brille betrachten würden: Wir 
schauen immer auf eine zweidi- 
mensionale Fläche (bei VR sind es 
deren zwei) und das Auge stellt sich 
auf diese Fläche scharf. Nehmen 
wir aber etwa unsere Hand und 
platzieren sie zwischen Auge und 
Display und fokussieren den Blick 
auf Hand oder Monitor, wird das 
jeweils andere Objekt unscharf. Das 
wäre reale Tiefenschärfe und sie 
funktioniert nur im dreidimensio- 


nalen Raum. 


Dynamische Unschärfe 
Depth-of-Field 


diese Problematik auf: Es simuliert 


in Spielen greift 


den Umstand, dass wir nur eine 
bestimmte „Ebene“ in einem drei- 
dimensionalen Raum scharf wahr- 
nehmen können. Doch es gibt dabei 
ein großes Problem: Das Spiel weiß 
nicht, wohin unsere Augen blicken, 
und auch nicht, welchen Punkt 
im dreidimensionalen, virtuellen 
Raum wir betrachten und damit 


scharf sehen möchten. 


Ein Problem bei einer adaptiven 
Tiefenschärfe, welche in einigen 
Spielen und vielen ENB-Konfigura- 
tionen zum Einsatz kommt: Nur der 


Fokuspunkt (meist um das Faden- 
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Rainbow Six Siege verzichtet - wie viele andere Spiele - auf eine Tiefenun- 
schärfe; alle Elemente sind immer scharf zu erkennen, egal wie weit sie vom 


Protagonisten entfernt sind 


AS. r ` 


Mass Effect 3 nutzt den Tiefenschärfe-Effekt geschickt, um das Auge des 


Spielers in Zwischensequenzen zu dirigieren 
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kreuz) ist scharf, das Depth-of-Field 
indes nur dann überzeugend, wenn 
der Spieler auf dem Display genau 
diesen Punkt fokussiert. Entfernt 
sich der Blick von ihm, funktioniert 
die Illusion nicht mehr, das Ergeb- 
nis kann befremdlich wirken oder 
gar leichtes Unwohlsein auslösen. 
Eine adaptive Tiefenschärfe wird 
daher nur relativ selten eingesetzt 
oder wird, wie beispielsweise in 
Skyrim SE, in der Funktion stark ein- 
geschränkt. Titanfall 2 hingegen ist 
eines der (wenigen) Beispiele für 
eine ambitioniert umgesetzte adap- 


tive Tiefenschärfe. 


Tricks aus Hollywood 

Viel häufiger orientieren sich Spie- 
le-Entwickler jedoch an Film und 
Foto. Dort wird eine andere Beson- 
derheit des menschlichen Sehens 
ausgenutzt: Beim Betrachten eines 
Bildes neigt das Auge dazu, Un- 
scharfes zu ignorieren und schar- 
fe Inhalte zu fokussieren. Testen 
Sie das ruhig einmal selbst auf der 
rechten Seite. Ihr Blick und Ihre 
Aufmerksamkeit wandern automa- 


tisch dorthin, wo wir (erstes Bild) 


oder die Entwickler ihn haben wol- 


len. 


Dieser Trick, den Blick zu steuern, 
wird häufig in Zwischensequen- 
zen oder bei Gesprächen mit NPCs 
eingesetzt, um die Aufmerksamkeit 
des Spielers zu lenken. Das funkti- 
oniert auch andersherum: Wird et- 
was unscharf gezeichnet, wird das 
Auge des Betrachters von diesem 
Element abgelenkt und ist wenig 
geneigt, dort viel Aufmerksamkeit 
zu investieren. Damit eignet sich 
eine solche Unschärfe, kritische, 
detailarme Elemente oder Trickser- 
eien zu verdecken. Häufig ist dies in 
„schlauchigen“ Shootern oder Spie- 
len anzufinden, die auf einzelne, 
beschränkte Level setzen, um Be- 
grenzungen oder den niedrigen De- 
tailgrad zu kaschieren. Open-Wor- 
ld-Titel begrenzen die Sichtweite 
eher selten auf diese Art. 


Aktuelle Beispiele 

Beispiele für eine gelungene Um- 
setzung liefert dagegen unter an- 
derem Mass Effect Andromeda: Die 


Tiefenschärfe ist maximiert eine 


In vielen Spielen, die auf einzelne, verhältnismäßig 
beschränkte Level setzen, wird eine Tiefenschärfe 
genutzt, um das Auge des Spielers von den Level- 
grenzen abzulenken, die häufig nur aus einer ge- 
malten Pixeltapete bestehen - wie hier in Bioshock 
Infinite. Dieser Kniff lässt sich aber auch noch in 
vielen aktuellen Titeln finden, beispielsweise in Ti- 


tanfall 2 oder Call of Duty 
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In The Witcher 3 ist 
die Tiefenschärfe 

in Gesprächen eher — 
unauffällig 


echte Augenweide. Sie kommt in 
Zwischensequenzen und Gesprä- 
chen zum Einsatz und wird ana- 
log zu Film und Fernsehen dazu 
genutzt, das Auge des Zuschau- 
ers zu leiten. Figuren, die gerade 
eine Funktion erfüllen oder das 
Gespräch führen, werden in den 
Vordergrund gestellt, der häufig 
chaotische Hintergrund der Sze- 
nen dagegen unscharf dargestellt. 
Dies erleichtert es dem Betrachter, 
der Szene zu folgen und ist für das 


Auge außerdem weniger anstren- 


gend. Die sehr hohe Qualität der 
Tiefenschärfe sowie die zusätzli- 
chen Bokeh- und Chroma-Effekte 
kosten indes auch viel Leistung: 
Die Cutscenes gehören zu den an- 


spruchsvollsten Szenen. 


Vor einigen Jahren wurde eine an- 
spruchslose und „unechte“ Tiefen- 
schärfe (meist ein simpler, niedrig 
aufgelöster Gauss-Filter) auch dazu 
genutzt, um dahinter fehlende De- 
tails oder Begrenzungen zu verste- 
cken. 


Tiefenschärfe 


Beispiele für den Einsatz einer Tiefenschärfe: Im ersten Bild demonstrieren 
wir die Funktionsweise einer händisch abgestimmten Depth-of-Field, wie 
es beispielsweise in einer Zwischensequenz Verwendung finden könnte: 
Der Blick des Betrachters wird von der unscharf dargestellten Umgebung 
auf die in den Fordergrund gestellten Spielfigur gelenkt. Eventuell ist dar- 
an auch noch ein anderer Faktor beteiligt, jedoch ist das nicht der Punkt. 
Der nackte Hintern ist allerdings thematisch interessant, da wir hier eine 
Art Grafikmodifikation reproduzieren, die bei der Verbreitung der Bokeh- 
Depth-of-Field eine gewisse Rolle gespielt haben dürfte: Es gibt seit 
Jahren unzählige ENB-Modifikationen für Skyrim mit diesem spezifischen, 


Fallout 4 mit der insbesondere aus 
Skyrim und ENB bekannten Matso- 
Depth-of-Field. Es ist sehr wahr- 
scheinlich, dass grafische Mods 
dieser Art Entwickler inspirieren 


Kn 
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Die neu hinzu- 
gekommene 

- adaptive Tiefen- 
schärfe in der 
Skyrim Special 
Edition 


Grafikkarte 


oder einem sehr ähnlichen Tiefenschärfe-Effekt. Millionen Bilder fluten 

das Netz. Es ist wohl kaum strittig, dass sich Entwickler von solcherlei 
Modding-Trends beeinflussen lassen und Spiele entsprechend aufrüsten. 
So wurde die Skyrim Special Edition mit einer adaptiven Depth-of-Field 
ausgestattet - ein offenkundiger Wink Richtung Modding-Community. Eine 
adaptive Tiefenschärfe hat gegenüber einem händisch platzierten Fokus 
aber einige Nachteile: Da der Spieler den Fokus selbst mit seinem virtu- 
ellen Blick setzt, also beispielsweise mit dem Fadenkreuz, muss er auch 
aktiv selbst auf den entsprechenden Punkt auf dem Monitor schauen, an- 
sonsten wirkt die Tiefenschärfe eher befremdlich. 


Die adaptive Depth-of-Field 


beim Zielen in Titanfall 2 S 
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Moderne Grafikeffekte: 
Globale Beleuchtung 


E 


Die Enlighten-Middleware gehört wohl zu den aktuell verbreitetsten Tech- 
niken. Neben der Unity-Engine nutzte schon Battlefield 3 diese Art Globale 
Beleuchtung 


L v — w3 
Assassin’s Creed Unity war einer der ersten Titel, welcher die Fähigkeiten der 
„Next-Gen”-Konsolen ausschöpfte und diese direkt leistungstechnisch über- 
forderte. Neben Physically Based Rendering kommt eine hübsche Globale 
Beleuchtung zum Einsatz, die allerdings vorberechnet ist. Die Beleuchtungs- 
daten machen 16,8 von 40,4 GiByte aus, beinahe die Hälfte der gesamten 
Spielgröße (ohne DLCs) - was die Komplexität der Technik verdeutlicht 


86 So funktioniert ein PC 


FE‘ Globale Beleuchtung (,„Glo- 
bal Illumination“) sorgt für 
glaubhaftes und dynamisches Licht 


in modernen Spielen. 


Globale Beleuchtung 

Die Globale Beleuchtung ist in den 
vergangenen Jahren immer wichti- 
ger geworden. Doch was kann man 
sich eigentlich unter einer „globa- 


len“ Beleuchtung vorstellen? 


Wenn in der Realität ein Lichtstrahl 
auf eine Oberfläche trifft, wird ein 
Teil absorbiert, der Rest wird reflek- 
tiert. Dieses abgestrahlte Licht be- 
stimmt, mit welcher Helligkeit und 
Färbung wir eine Oberfläche wahr- 
nehmen. Der reflektierte Strahl 
trifft nun indirekt auf weitere Ober- 


flächen, das Spiel wiederholt sich. 


Da nun jedoch nur noch ein Teil 
des ehemals vorhandenen Spekt- 
rums dort eintrifft, findet neben 
einer indirekten Beleuchtung auch 
ein Farbtransfer statt: War die ers- 
te Oberfläche blau (sie wirft also 
den blauen Anteil des sichtbaren 
Lichtspektrums zurück), wird die 
zweite Oberfläche blau eingefärbt 
- vorausgesetzt, sie schluckt das 
Licht nicht (wenn sie beispielswei- 


se schwarz wäre). 


In der Realität geschieht dies so 
häufig, bis der ausgesandte Licht- 


strahl komplett absorbiert wurde. 


Die „Realität” in Spielen 
Sie ahnen es vielleicht schon: Für 
heutige Hardware ist eine solch 
komplexe Berechnung in Spielen 
nicht zu stemmen, da natürlich 


nicht nur die Reflexionen und 


Farbübertragungen eines einzel- 


nen Strahls berechnet werden 
müssen, sondern die unzähliger 
weiterer Strahlen. Trotzdem kann 
nur noch schwerlich auf eine Glo- 
bale Beleuchtung verzichtet wer- 
den. Gründe dafür sind die gestei- 
gerte Dynamik und Komplexität 
moderner Spiele, insbesondere bei 
Open-World-Titeln samt wechseln- 
der Witterungsverhältnisse und Ta- 


geszeiten. 


Ein anderer Grund ist der höhere 
Realismusbezug durch Phyically Ba- 
sed Rendering: Da die Materialien 
physikalische Attribute besitzen, 
die bei Lichteinfall die Realität imi- 
tieren, muss logischerweise auch 
die Beleuchtung möglichst authen- 
tisch ausfallen, um diese Eigenschaf- 
ten zu bedienen. Ansonsten wirkt 
das Bild nur bedingt glaubhaft. 


Daher kommt in beinahe jedem 
aktuellen Titel eine Globale Be- 
leuchtung ins Spiel. Selbst die In- 
die-Engine Unity nutzt in Form von 
Enlighten eine solche (siehe Bild 
links oben). Die Präzision und Dy- 
namik dieser Techniken sind natür- 
lich eingeschränkt und werden zu- 
sätzlich durch andere Rendertricks 
ergänzt, etwa einer Umgebungsver- 
deckung oder Screen-Space-Reflec- 


tions. 


Voxel Ambient 
Occlusion 

Grundsätzlich würde eine vollum- 
fängliche, detaillierte Globale Be- 
leuchtung einige Effekte überflüs- 
sig machen, so ist beispielsweise 
Nvidias VXAO (,„Voxel Ambient Oc- 
clusion“) ein Teil von VXGI („Voxel 
Global Illumination“). Doch noch 
ist die Technik nicht ausgereift ge- 
nug beziehungsweise eine solche 
GI zu teuer, daher muss abstrahiert 
werden. Dabei nutzen Entwickler 
verschiedene Ansätze, von denen 
wir einige auf den folgenden Seiten 


vorstellen. 


Die (halb-)dynamische Globale Beleuchtung via Enlighten-Middieware 

ist weit verbreitet und unter anderem in der Unreal Engine 4 integriert. 
Aber natürlich kann die Middleware in Spielen unterschiedlich genutzt 
und auch in Sachen Qualität variiert werden. Enlighten verwendet einen 
dynamischen Ansatz für Levelarchitektur, was insbesondere bei Titeln wie 
Battlefield 1 mit zerstörbaren Umgebungen offenkundige Vorteile bringt. 
Die Licht- und Farbübertragungen sind prinzipiell sehr überzeugend, wo- 
bei der Effekt beispielsweise im ebenfalls mit Enlighten ausgestatteten 
Mirror’s Edge Catalyst eventuell etwas zu akzentuiert ausfällt. Die GI wird 


Globale Beleuchtung in Battlefield 1 


dé 


Halb-)dynamische Globale Beleuchtung 


Gut erkennbare, jedoch auch etwas unpräzise und stark akzentuierte Farbübertragung in Mirror’s Edge Catalyst 
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mit Screen-Space-Reflections (1) sowie einer Umgebungsverdeckung 
ergänzt (2), obwohl die Globale Beleuchtung die gleichen Effekte schon in 
abgemilderter Form mit sich bringt. Die Figuren werden per Light Probes 
beleuchtet. Dies sind im Level verteilte unsichtbare „Sonden”, die umlie- 
gende Beleuchtungsdaten sammeln und bei Kontakt an Spielfiguren und 
Objekte abgeben. Der Soldat bei (3) kommt von draußen, hat noch keine 
Light Probe im Inneren getroffen und trägt daher noch die optisch inkor- 
rekte Beleuchtung von Außen. 


a — 
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Voxelbasierte Globale Beleuchtung 


Mit Voxeln kann eine komplexe Szene abstrahiert und vereinfacht wer- einer im Vergleich zu Spielen eher simplen Szene. Einen ähnlichen Ansatz 
den - auch intern, etwa zur Berechnung einer Globalen Beleuchtung. verfolgt Crytek mit SVOTI, welches mit diversen Kniffen arbeitet, darunter 
Durch diese Reduktion kann wiederum die eigentliche Berechnung der ein LoD und Berechnungen über mehrere Frames. SVOTI zeigt temporale 
GI deutlich komplexer ausfallen und dem Raytracing weiter angenähert Nebeneffekte, wirkt in einigen Belangen nur grobflächig und nutzt zur 
werden. Eine solche Herangehensweise demonstriert etwa die Lunar Lan- Farbübertragung die Diffuse-Texturen, nicht die tatsächliche Färbung in 
der Demo samt Nvidias VXGl. Dank der sehr komplexen und realistischen der vorliegenden Szene, was zu einigen kleineren Unstimmigkeiten führt. 
Ausleuchtung der Szene sind keine „künstlichen” Ambient Lights und Insgesamt ist die Vorstellung der sich bislang noch in Entwicklung befind- 
ähnliche Tricks nötig. Allerdings ist VXGI noch dermaßen anspruchsvoll, lichen Technik in den ebenfalls noch nicht vollendeten Spielen jedoch sehr 
dass selbst eine stark übertaktete GTX 1080 Ti schon in Full HD an ihre eindrücklich - insbesondere unter Berücksichtigung der eher geringen 
Grenzen stößt und deutlich unter 60 Fps absacken kann - und das bei Leistungskosten. 


Nvidias voxelbasierte Globale Beleuchtung VXGI ist schick und präzise, allerdings auch sehr kostspielig und Nvidia-exklusiv 


| lw 
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ktuell sind Voxel wieder in al- 
A. Munde. Den hippen Status 
verdankt die Technik insbesondere 
Indie-Titeln wie Minecraft, 7 Days 
to Die, Nex Machina und anderen 
Spielen in „Klötzchen-Optik“, wie 
Eldritch. Dabei ist Voxel-Grafik kei- 
ne neue Erfindung und tatsächliche 
Voxel bekommen Sie in keinem der 
genannten Titel zu Gesicht. Was Sie 
aktuell in Spielen mit Voxel-Technik 
sehen, ist Voxel-basierte Polygongra- 
fik. Die Voxel dienen der Engine le- 
diglich als Basis, um mit diesen Geo- 


metrie oder Effekte zu erzeugen. 


Voxel-Technik 

Dabei waren und sind Voxel eine 
interessante sowie bereits seit lan- 
gem bekannte Technik; vor dem 
Siegesmarsch der 3D-Beschleuni- 
gerkarten träumte so mancher gar 
davon, dass Voxel, nicht Polygone, 
die Grafik der Zukunft ausmachen 
würden. Ursprünglich stammt die 
Technik aus der Medizin, genauer 
der Magnetresonanztomographie. 
Anno 1992 schwappte Voxel-Grafik 
dann in Form der Voxel Space Engi- 


ne auf den PC herüber. 


Die von Novalogic patentierte 
Technik kam unter anderem in 
der Hubschraubersimulation Co- 
manche zum Einsatz und war da- 
mals das Nonplusultra in Sachen 
Landschaftsdarstellung. Die Engine 
zeichnete Landschaften weitaus 
glaubwürdiger als damalige 3D-En- 
gines mittels Polygonen. Sogar die 
US Army nutzte Simulationen auf 
Basis der Novalogic-Engine. Auch 
andere Spiele experimentierten mit 
Voxel-Grafik, als wohl fortschritt- 
lichstes Spiel mit Voxelgrafik gilt bis 
heute Outcast von 1999. 


Pixel vs. Voxel 

Während der Begriff Pixel aus 
„Picture“ (Pix) und „Element“ (eD 
zusammengesetzt wird, besitzt ein 
Voxel einen Körper, daher „Volume“ 


und „Element“ - Voxel. Etwas kon- 
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Moderne Grafikeffekte: 
Volumetrische Pixel 
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kreter ist die ebenfalls gebräuchli- 
che Herleitung aus „Volume“ und 
„Pixel“: Ein Voxel ist demnach ein 
Bildpunkt mit Volumen, ein „3D-Pi- 
xel“ also. Dieses hat im Vergleich 
zum regulären Pixel drei statt zwei 
Koordinaten (x, y, z) sowie einen 


einzelnen Farbwert. 


Voxel-Grafiken 

Um es ein wenig bildhafter zu be- 
schreiben: Man kann sich einen Vo- 
xel wie einen Legostein vorstellen. 
Aus diesen lässt sich ein dreidimen- 
sionales Gebilde bauen. Je mehr 
Bausteine man nutzt, desto komple- 
xer und feiner fällt ein solches Ob- 
jekt aus. Aus Voxeln lässt sich somit 
grundsätzlich eine hochdetaillierte, 
dynamische sowie ausgesprochen 
organische Grafik realisieren. Doch 
natürlich gibt es einen Haken: Die 
Darstellung einer hochauflösenden 
Voxel-Szene wäre extrem rechen- 
aufwendig und die auf Beschleu- 


nigung von Polygonen ausgelegte 


Grafikkarte nur sehr begrenzt hilf- 
reich - die Voxel müssten zumin- 
dest zu weiten Teilen von der CPU 


gehandhabt werden. 


Außerdem müsste in einem dreidi- 
mensionalen Gitter für jeden (po- 
tenziellen) Voxel ein Speicherplatz 
reserviert werden, bei dynamischer 
Darstellung gar mit ständigem Lese- 


und Schreibzugriff. Je höher aufge- 


Mit Commanche 
und der Voxel 
Space-Engine 
brachte Novalogic 
die Technik anno 
1992 auf die heimis- 
chen Bildschrime 

- in stark verein- 
fachter Form 


löst und größer eine Voxel-Welt aus- 
fällt, desto mehr Speicher benötigt 
sie. Der Speicher stellt damit neben 
der leistungsintensiven Darstellung 
die wohl größte Problemstelle bei 
Voxeln dar. Trotz Optimierungen 
beziehungsweise Speichereinspa- 
rungen via (Sparse-)Octree-Kom- 
pression bekommen Sie „echte“ 
Voxel-Grafik in Spielen daher nur 
selten zu Gesicht 


Voxel haben ihre Ursprünge in wissenschaftlichen 3D-Scans, genauer: der 


Magnetresonanztomographie (MRI) 
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Bild: simulationcorner.net 
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Grafikkarte 


Voxel-Grafik 


Mehrere Jahre war nicht gewiss, ob Spiele der Zukunft mit Polygonen oder 
Voxeln dargestellt werden würden. Doch dies sollte sich um die Jahrtau- 
sendwende klären: Mit der Verbreitung von Beschleuniger-Karten und 
moderner(er) GPUs hatten Voxel ausgedient. Entwickler setzten nun fast 
ausschließlich auf Polygone für die 3D-Darstellung. Die Anzahl nutzbarer 
Vielecke stieg zu dieser Zeit massiv an, zugleich wuchsen die Fähigkeiten 
der Grafikkarten. Das Jahr 1999 ist gleich mehrfach interessant, denn zum ei- 
nen erschien mit Nvidias Geforce 256 eine Grafikkarte, die mittels Hardware 
Transform & Lighting den Grundstein für die moderne, GPU-beschleunigte 
Geometrie- und Shader-Grafik legte. 


Outcast ist das wohl fortschrittlichste Spiel 
mit Voxel-Grafik. Der Ansatz ähnelt der 
Raycasting-Technik von Novalogic, die 
Landschaft wird aus Texturen generiert 

" x jor F 


Command & Conquer Tiberian Sun nutzt für 
die Darstellung der Einheiten Voxel. Diese 
können sich dank der Technik stufenlos 
drehen und mit dem Untergrund agieren 
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Zum anderen erschien im selben Jahr mit Outcast eines der letzten und bis 
dato wohl aufwendigsten Spiele mit Voxel-Grafik. Die zum Einsatz kom- 
mende Technik nutzt - ähnlich der Voxel Space Engine - Höhen-Maps und 
Raycasting zur Terrain-Darstellung, Objekte und Figuren werden mittels 
Polygonen dargestellt. Outcast war aufgrund der aufwendigen Voxel-Dar- 
stellung ein massiver Prozessor-Killer und bringt auch heute, trotz Mehrker- 
noptimierungen, selbst moderne Achtkern-CPUs ins Schwitzen. Ein weiterer 
Voxel-Titel aus dem Jahre 1999 ist Command & Conquer Tiberian Sun. Das 
Strategiespiel nutzt damals übliche 2D-Kacheln für die Landschaftsdarstel- 
lung, Einheiten wie Fahrzeuge bestehen dagegen aus Voxeln. 


Wenn heutzutage in Spielen Voxel zum Einsatz kommen, dann ist dies in 
praktisch allen Fällen nicht auf den ersten Blick ersichtlich. Ja, einige „blo- 
ckige“ Titel wie Minecraft nutzen ein Voxel-Raster und Voxel zur Berechnung 
der einzelnen Quader, aus denen das Spiel besteht. Doch handelt es sich bei 
den sichtbaren Elementen um Polygonkörper samt üblicher Geometrie- und 
Shaderberechnungen. Die Voxel dienen lediglich als Basis für die Polygon- 
darstellung. Trotzdem birgt die Technik einige ihrer Vor- und Nachteile: Zu 
den positiven Aspekten zählt die Dynamik - Elemente können erstellt und 
zerstört werden. Das ist sehr vorteilhaft in Sandbox-Titeln, in denen Spieler 
starken Einfluss auf die Umgebung ausüben und beispielsweise Ressourcen 


In Space Engineers kann man sich buch- 
stäblich durch Planeten graben. Auch hier 
kommen Voxel zum Einsatz - wiederum 


intern zur Berechnung der Polygongrafik 
EI E 5 


Grafikkarte 


(optisch) abbauen können. Zudem ist es verhältnismäßig einfach, mit Voxeln 
glaubhafte, prozeduale Inhalte zu generieren. Auf der anderen Seite benö- 
tigen Voxel noch immer viel Rechenzeit, außerdem ist der Speicherhunger 
trotz Octree-Kompression (nur auf grobmöglichste, benötigte Daten wird 
zugegriffen) problematisch - auch das kennen Sie eventuell aus Minecraft: 
Große, komplexe Maps lassen die Prozessor- und Speicherlast aufgrund der 
hohen Voxel-Dichte in die Höhe schnellen. Dennoch sind intern berechnete 
Voxel bestens geeignet, um aus groben, abstrakten Strukturen detaillierte 
Polygongebilde zu erzeugen. Voxel werden außerdem genutzt, um aufwendi- 
ge volumetrische Effekte zu realisieren (z. B. SVOTI, VXAO). 


No Mans Sky nutzt Voxel intern, um 
prozeduale Inhalte zu generieren und 
komplexe Polygonstrukturen für die 
sichtbare 3D-Grafik zu erstellen 
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Moderne Grafikeffekte: 


Schatten wirkten früher oft klobig und pixelig. Dank moderner Verfahren sind 
diese Zeiten glücklicherweise vorbei. Welche Schatten-Technik macht in 
Zukunft das Rennen? 


Eine hochauflösende, gefilterte und saubere Shadow Map in Ghost Recon: 
Wildlands 


92 So funktioniert ein PC 


Schatten 


hne zumindest halbwegs glaub- 
CL. Schatten kommt heute 
kaum ein Spiel mehr aus. Sie ergän- 
zen die seit Jahren komplexer wer- 
denden Beleuchtungstechniken, sor- 
gen für Tiefe und Kontrast und lassen 


virtuelle Welten glaubhafter wirken. 


Schatten 

Doom 3 setzte 2004 so etwas wie 
den Anfangspunkt der modernen 
Schattendarstellung. Entwicklerle- 
gende John Carmack erdachte für 
den Kult-Shooter die so genannten 
Stencil-Shadows, angelehnt an das 
englische „stencil“ für „Schablone“. 
Bei dieser Technik werden Schatten 
mithilfe des Stencil-Buffers aus der 
Levelbeleuchtung sozusagen her- 
ausgeschnitten. Der Stencil-Buffer 
dient dazu, bestimmte Bildschir- 
melemente vor dem Rendern auszu- 


sparen, HUD-Elemente etwa. 


Stencil Shadows basieren auf der 
Projektion der 3D-Modelle und ha- 
ben daher quasi scharfe „Schnitt- 
kanten“. Außerdem sind sie pixelge- 
nau und werden in voller Auflösung 
berechnet, sie neigen daher nicht 
zum Flimmern. Sie benötigen au- 


ßerdem nicht viel Grafikspeicher. 


Stencil-Shadow- 
Engines 

Auch andere Spiele nutzen Stencil 
Shadows, darunter der Horror-Shoo- 
ter FEAR. Dort versuchte man, mit 
einem Trick eine Art Schattenfilte- 
rung zu nutzen, obwohl dies mit der 
Technik im Grunde nicht möglich 
ist: Mehrere Stencil Shadows wur- 
den übereinandergelegt, um so eine 
Illusion von „soften“ Schatten zu er- 


zeugen. Dies ließ die Hardware-An- 


forderungen des sowieso schon 
sehr anspruchsvollen Spiels jedoch 
massiv in die Höhe schnellen und 
war damit nur wenig praktikabel. 
Neben id Software (Doom 3) und 
Monolith (FEAR), versuchte sich au- 
ßerdem Crytek an Stencil Shadows 
und nutzte diese im ersten Far Cry. 
Die Blütezeit der Stencil-Shadows 
ist eng verbunden mit dem Sieges- 
zug des Per-Pixel-Lightings. Engines 
wie die id Tech 4, Cryengine 1, Un- 
real Engine 3 oder Source Engine 2 
kehrten sich von dem zuvor verbrei- 
teten Vertex-Lighting ab und setz- 
ten auf die verfeinerte, pixelgenaue 
Beleuchtung. Mit der verbesserten 
Beleuchtung wurden auch neue 
Berechnungen für die dynamische 


Schattendarstellung nötig. 


Stencil-Shadows- 
Nachteile 

Weiche Schatten und die Berück- 
sichtigung von Alpha-Texturen 
sind mit Stencil-Shadows allerdings 
nicht möglich. Und es gibt weitere 
Probleme: So kann es zu Fehldar- 
stellungen kommen, wenn sich die 
Kamera komplett im verschatteten 
Bereich befindet, die Schatten wir- 
ken häufig perspektivisch inkorrekt 
und es können Löcher bei der Pro- 
jektion der 3D-Modellen entstehen. 
Zudem können Transparenztextu- 
ren nicht berücksichtigt werden. 
Alpha-Texturen sind heutzutage all- 
gegenwärtig und kommen für Vege- 
tation, feine Strukturen wie Zäune 
oder Gitter, aber auch Haar oder 
andere Details zum Einsatz, für die 
komplexe Polygonmodelle nicht 


zweckdienlich sind. 


Shadow Mapping 

Die damals zum Einsatz kommen- 
den Stencil Shadows unterscheiden 
sich recht stark von dem heute gän- 
gigen Shadow Mapping. Diese Tech- 
nik nutzt Shadow Maps, also (Grau- 
stufen-)Texturen, um die Schatten 
darzustellen und kommt in prak- 


tisch allen aktuellen Titeln zum Ein- 


satz. Diese Technik bietet Vorteile 
bei Transparenzen, sie benötigt nur 
einen einzelnen Renderpass (ab DX 
10) und aufwendige Filtertechni- 


ken können genutzt werden. 


In aktuellen Spielen können hun- 
derte Alpha-Texturen zum Einsatz 
kommen. Dabei wären einige Schat- 
teneffekte mit der Stencil-Technik 
aus Doom 3 so nicht möglich. Ein 
Grund: Beim Shadow Mapping wer- 
den auch die Transparenztexturen 
abgetastet, zudem können selbst 
Halbtransparenzen wie beispiels- 
weise Partikelrauch berüchsichtigt 
werden. Die Schatten können au- 
ßerdem mit weichen Kanten ver- 
sehen und aufwendig gefiltert wer- 
den, was einen insgesamt deutlich 
realistischeren Look erlaubt. Aus 
diesem Grund hat sich in aktuellen 
Spielen diese Technik durchgesetzt. 
Doch auch das Shadow Mapping 
hat handfeste Nachteile. 


Nachteile Shadow Maps 
Die Darstellung von Shadow Maps 
ist sehr rechenaufwendig, denn 
grundsätzlich muss für jeden Pixel 
der zum Einsatz kommenden Schat- 
tentexturen einzeln berechnet wer- 
den, ob an dieser Stelle ein Schatten 


vorliegt und wie dunkel er ausfällt. 


Auch muss die Schattentextur im 
Speicher der Grafikkarte abgelegt 
werden. Je größer die Schattentex- 
tur, desto mehr muss die Hardware 
rechnen und desto mehr Speicher 
wird benötigt. Deshalb sind die Aus- 
maße dieser Texturen häufig stark 
begrenzt. In großen Spielewelten 
muss die Textur daher über einen 
weiten Raum gestreckt werden, was 
zu einer niedrigen Pixeldichte und 
damit Flimmern und Verzerrungen 
führt. Shadow Maps neigen daher 
zum Flimmern, was wiederum eine 
Filterung nötig macht, die ebenfalls 


viel Leistung kosten kann. 


Deshalb nutzen Spiele abgestuf- 
te (cascaded) Shadow Maps. Das 
heißt: In der unmittelbaren Umge- 
bung kommt eine kleine, aber hoch- 
auflösende Schattentextur zum 
Einsatz. In mittlerer Distanz dann 
eine größere, aber mit insgesamt 
niedrigerer Pixeldichte. In der Fer- 
ne wird eine weitere Textur dann 
schließlich weit gestreckt und nur 
in niedriger Auflösung berechnet. 
Diese Abstufung lässt sich in prak- 


tisch allen Spielen beobachten. 


Tricksereien 
Neben den abgestuften Schattentex- 


turen kommen auch noch weitere 


Tricksereien und Vereinfachungen 
zum Einsatz. Ein großes Hindernis 
bei der Entwicklung ist die maxi- 
male Anzahl gleichzeitig nutzbarer 
Lichtquellen, die überhaupt einen 


Schatten werfen können. 


Für jede einzelne Lichtquelle ist 
mindestens ein Renderdurchlauf 
der Grafikkarte pro Frame nötig, 
zudem erhöht sich mit jeder zu- 
sätzlichen Lichtquelle die Anzahl 
Renderanweisungen (Draw Calls), 
welche der Prozessor an die Gra- 
fikkarte versenden muss. Dies kann 
dazu führen, dass Schatten nicht 


nur die Grafikkarte belasten, son- 


Wie Shadow-Maps die Qualität bestimmen 


Grafikkarte 


Shadow of the Tomb Raider (hier mit Shadow Banding mit RT Hoch 
erlaubt einen Blick in die Zukunft: Hier werden in Echtzeit berechnete 
„Raytracing“-Schatten erzeugt; diese spiegeln die realen Lichtverhältnisse 
wieder und wirken sehr realistisch - kosten allerdings auch viel Leistung 


dern die komplette Kommunikati- 
on zwischen den Hardware-Kompo- 


nenten blockieren. 


Schatten und die Leis- 
tung 

Schatten gehören zu den wichtigs- 
ten Grafikeffekten in modernen 
Spielen, sind aber auch heute noch 
unter den leistungsfressendsten 
Optionen im Grafikmenü. Neben 
der Schattenauflösung und Sicht- 
weite sind vor allem „Extras“ wie 
eine hochqualitative Filterung sehr 
teuer. Es lohnt sich zumeist, bei 
diesen Einstellungen ein wenig Zu- 


rückhaltung zu üben. 


Auflösung von Schattentexturen im direkten Vergleich: Während die schattenwerfende Geometrie - hier die Spielfigur mitsamt Ausrüstung wie dem Pfeil- 
köcher - immer in derselben Auflösung vorliegt, variiert die Auflösung der Schattentextur von 128 über 1.024 bis 2.048 Pixel pro Kante von links nach 
rechts. Gut zu erkennen: der hohe Detailgewinn bei den Schatten zwischen 128 und 1.024 Pixeln. 
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Stencil-Shadows 


Mit Doom 3 machte sich Engine-Guru John Carmack ein weiteres Mal von 
sich reden. Die „Carmack’s Reverse“ getaufte Schattentechnik nutzt den 
Stencil Buffer. Der Stencil Buffer dient normalerweise dazu, Teile des Bilds 
vor dem Rendern auszuschließen, beispielsweise unter einem HUD verbor- 
gene Elemente, die unnötig Rechenzeit benötigen würden - „Stencil“ be- 
deutet im Deutschen „Schablone“, Shadow Volumes nennt sich die zugrun- 
deliegende Projektion auf Basis der Vertices der Polygonmodelle: Von jeder 
Schatten werfenden Lichtquelle (Doom 3 nutzt maximal zwölf zugleich) wird 
der Lichtkegel verfolgt, von sich in diesem Kegel befindliche Objekte wird 
eine auf dem Polygon-Gerüst basierende Silhouetten-Projektion kreiert und 


Die aus Shadow Volumes kreierten 
Stencil Shadows in Doom 3 waren 
damals extrem beeindruckend. Im 
Gegensatz zu Shadow Maps sind 


FEAR nutzt ebenfalls 
Stencil Shadows. 
Sogar „Soft Shadows“ 
sind möglich 
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in den Stencil Buffer geschrieben. Die Vorteile der Stencil Shadows sind 
unter anderem, dass sie kaum (zusätzlichen) Videospeicher benötigen, sau- 
bere Kanten haben und in nativer Auflösung pixelgenau appliziert werden. 
Nachteile: Da Shadow Volumes auf Polygonstrukturen basieren, können 
Alpha-Texturen (z.B. für die Darstellung von Vegetation) nicht berücksichtigt 
werden, es sind mehrere Renderpasses (GPU-Berechnungen) pro Frame, 
Schatten und Lichtquelle nötig, die CPU-Last ist tendenziell hoch und 
gefilterte sowie halbtransparente Schatten funktionieren nicht - Stencil 
Shadows werden entweder angezeigt oder eben nicht. Außerdem fordern 
sie der GPU eine hohe Füllrate ab und es gibt Perspektivenprobleme. 


Doch es ist nur ein 
Trick: Mehrere Schat- 
ten werden versetzt 
übereinander gelegt 
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Cascaded) Shadow Mapping 


In aktuellen Titeln wird beinahe ausschließlich Shadow Mapping verwendet. 
Shadow Maps basieren auf einer Textur, die eine bestimmte Größe und Auf- 
lösung einnimmt und die Sie im Grunde mit der Kamera bzw. Figur durch die 
Spielewelten bewegen. Dazu wird der „Blickwinkel“ jeder Schatten-werfen- 
den Lichtquelle einzeln berechnet, die Szene dann nochmals aus der Kame- 
raperspektive berechnet, potenzielle Hindernisse erfasst und dann für jeden 
Pixel der Schattentextur entschieden, ob und wie stark dieser verdunkelt 
werden soll - je höher die Auflösung der Shadow Map, desto anspruchs- 
voller ist dieser Vorgang also. Da eine einzelne, gestreckte Map nicht 
ausreichen oder man eine sehr ineffiziente Pixelgrößen benötigen würde, 


Gut erkennbare Schattenkaskaden: S 
Mit zunehmender Kameraentfer- f 
nung sinkt die Schattenauflösung. 

Der Charakterschatten wird in Fall- 
out 4 gesondert gerendert 


kommen mehrere, abgestufte (cascaded) Texturen zum Einsatz: In der Nähe 
mit höchster Pixeldichte dargestellt, mit zunehmender Entfernung werden 
die Maps flächenmäßig größer, die Auflösung sinkt. Vorteile von Shadow 
Maps: Pro Lichtquelle ist nur ein einzelner Renderpass nötig (ab DX 10), Al- 
pha-Texturen und andere Transparenzen können berücksichtigt und ergänzt 
(z.B. Schatten werfende Partikel oder Wolkenschatten) sowie aufwendige 
Filterverfahren genutzt werden. Nachteile: Shadow-Maps sind flimmeranfäl- 
lig, können Darstellungsprobleme mit sich bringen (Artefakte, Streifen) und 
benötigen viel Grafikspeicher. Letzteres gilt insbesondere, wenn aufwendig 
gefiltert wird und die Sichtweite hoch ausfällt (viele einzelne Shadow Maps). 


Die Schatten in Battlefield 1 sind 

prinzipiell hübsch, aber etwas nied- 

rig aufgelöst. Theoretisch wären 

auch halbtransparente Schatten, 

etwa für den Partikelrauch, möglich 
Ber 
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Sonnen- und Punktschatten 


Auch Shadow Maps sind kompliziert zu berechnen und benötigen neben 
viel Speicher außerdem viel Rechenzeit. Neben abgestufen Schatten wird 
deshalb mit weiteren Tricks gearbeitet: So gibt es in aktuellen Spielen nur 
eine sehr begrenzte Anzahl Lichtquellen, die tatsächlich Schatten werfen 

- im Normalfall liegt das Limit mit heutiger Hardware und DX11-API bei 
acht bis zehn gleichzeitig Schatten werfender Lichter. Ansonsten wird das 
Spiel zu anspruchsvoll. Zudem steigt mit jeder Lichtquelle der CPU- bzw. 
API-Overhead. In vielen Spielen gibt es deshalb mehrere Schattenoptionen, 
oft getrennt für „Sonnenschatten“ und „Punktschatten“. Diese unterschei- 
den sich technisch im Grunde nicht allzu sehr. Die „Sonne“ ist im Prinzip 


Die Punktschatten künstlicher 
Lichtquellen sind deutlich niedriger 
aufgelöst, zudem funktioniert die 
optionale PCSS- sowie HFTS-Dar- 
stellung nicht (hier zugeschaltet) 
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nur eine einzelne, wichtige Lichtquelle, während andere Lichter wie Stra- 
Benlaternen oder die Beleuchtung in Innenräumen einfach ein wenig anders 
gehandhabt werden. In The Division ist dieser Unterschied allerdings recht 
auffällig, denn die Sonnenschatten (und die des Mondes, gleiches Prinzip) 
werden in deutlich höherer Qualität berechnet als jene, die von „künstli- 
chen“ Lichtquellen geworfen werden. Zusätzlich nutzt The Division noch 
eine weitere Art der Schattendarstellung, die offenbar Screenspace-basiert 
arbeitet (die Schatten verschwinden am Rande des Blickfelds der Kamera) 
und zur hochauflösenden Verschattung von feinen, bodennahen Objekten 
wie diesem Kabel dient. Hellblade nutzt einen ähnlichen Ansatz für die 


Diese Sonnenschatten sind deutlich 
höher aufgelöst, als jene künstlicher 
Lichter. Nachts kann man beide 
Schattenarten gleichzeitig beobach- 
ten (z.B. unter Laternen) 
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Mainboard 


So funktioniert ein 
Mainboard: Überblick 


Die Zahl der Schnittstellen „onboard“ 
scheint stetig zuzunehmen. Doch es 

verschwinden auch immer wieder An- 
schlüsse (zuletzt Firewire und eSATA) 


> 


Auf der Epoxidharz-Platine eines Mainboards werden neben den elek- 
tronischen Bauteilen wie Kondensatoren (rechts) alle wichtigen Chips ver- 
lötet - in der Bildmitte zum Beispiel eine SLI-Chip 
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D: Mainboard (auch „Haupt- 


platine“ oder „Motherboard“ 
genannt) ist die Schaltzentrale in 
jedem PC. Was der PC kann, hängt 
zum großen Teil von den Funk- 
tionen dieser Platine ab. Wie die 
einzelnen Bauteile funktionieren 
und welche Techniken dabei zum 
Einsatz kommen, zeigt das folgende 
Kapitel. 
Bevor wir aber jede einzelne 
Schnittstelle und Funktion einzeln 
betrachten, wollen wir einen Über- 
blick über die Grundfunktionen 
und den Aufbau der „Bretter“ ge- 


ben. 


Vielschichtige Bretter 

Auch wenn hunderte Bauteile auf 
einem aktuellen Mainboard sitzen, 
ist die darunter liegende Platine 
(„Printed Circuit Board“, kurz: PCB) 
mindestens genauso wichtig wie die 
Masse der Chips, die auf ihr sitzen. 
Über das PCB werden alle Bauteile 
mit elektrischer Energie versorgt, 
auch der Datentransfer findet darü- 
ber statt. Damit dies möglich ist, ist 
die Platine aus mehreren Schichten 
(engl. „Layer“) aufgebaut, die unter- 


schiedliche Aufgaben übernehmen. 


Je komplexer eine Hauptplatine 
aufgebaut ist, desto mehr Schichten 
hat sie. Während viele Mittelklas- 
se-Hauptplatinen aus sechs Lagen 
aufgebaut sind, handelt es sich bei 
Oberklasse-Mainboards häufig um 
acht Schichten: Die Anbindung von 
sechs RAM-Steckplätzen für den Tri- 
ple-Channel-Betrieb stellt beispiels- 
weise höhere Ansprüche an das 
Design als eine Dual-Channel-An- 


bindung mit vier Slots. 


Selbst wenn sich Datenleitungen 
so verlegen lassen, dass ein Board 
mit weniger Platinenlagen aus- 
kommt, werden für eine stabilere 
Stromversorgung oder eine bessere 
Abschirmung der Schichten unter- 
einander zur Minimierung elektro- 
magnetischer Interferenzen manch- 


mal mehr Schichten verwendet. 


Je mehr Leitungen quer durch die 
Platine geführt werden müssen, 
desto komplizierter gestaltet sich 
Entwicklung und Fertigung, was 
unnötige Kosten verursacht. Au- 
ßerdem sind die Signallaufzeiten 
bei kürzeren Strecken leichter zu 
kontrollieren; bei Frequenzen bis in 
den Gigahertz-Bereich ist jeder ge- 
sparte Zentimeter hilfreich für die 
Stabilität. 


CPU-Versorgung 

Strom und Daten zu liefern, das ist 
also zunächst einmal eine wesent- 
liche Aufgabe der Hauptplatine. 
Eine Komponente verdient aber 
noch besondere Beachtung: Die 
Stromversorgung des Hauptprozes- 
sors unterscheidet sich allein im 
Umfang deutlich von der anderer 


Komponenten. 


In den letzten Jahren ist die Bedeu- 
tung der Spannungsversorgung ge- 
wachsen. Dies verwundert nicht, 
denn sie trägt maßgeblich zur 
Energieeffizienz, zur Langlebigkeit 
und zum Overclocking-Potenzial 
bei. Die Stromversorgung umfasst 
im Wesentlichen einen PWM-Con- 
troller für die einzelnen Phasen, 
MOSFETs samt Treiber, Kondensa- 
toren und Spulen. Auch wenn all- 
gemein nur von der CPU-Spannung 
die Rede ist, liegen innerhalb eines 
Prozessors verschiedene Spannun- 
gen für unterschiedliche Teilberei- 


che an. 


Bei vielen aktuellen Prozessoren 
wird der Uncore- bzw. Northbridge- 


Teil der CPU unabhängig von 


den Kernen versorgt. Aus diesem 
Grund werden die einzelnen Pha- 
sen getrennt genannt: Erfolgt die 
Stromversorgung etwa über „4+1 
Phasen‘, so sind von den insgesamt 
fünf Phasen vier für die Kernspan- 
nung und eine für den Uncore-/ 
Northbridge-Bereich zuständig. Bei 
manchen CPUs kommt noch die 
Spannung für die integrierte Grafik- 
einheit und/oder weitere Kompo- 


nenten hinzu. 


Phasen 

Je mehr Phasen ein Mainboard hat, 
desto besser lässt sich die Last auf 
MOSFET-Gruppen 


verteilen: Bei vier Phasen beträgt 


verschiedene 


die effektive Arbeitszeit nur 25 Pro- 
zent, bei sechs liegt sie schon un- 
ter 20 Prozent. Damit das funktio- 


niert, muss der Phasenwechsel 


Datenströme 
im PC 


Das Mainboard als zentrale 
Komponente verbindet nahezu 
alle Bauteile im PC miteinander. 
Die folgende (teils vereinfachte) 
Grafik soll die entstehenden Da- 
tenströme illustrieren und zeigen, 
wo potenzielle Engpässe auftre- 
ten können. Die Liniendicke ent- 
spricht dabei dem Datenvolumen. 


Direkt mit dem Prozessor 
kommunizieren Speicher und 
PCI-Express-x16-Steckplatz - 
beide sind gleichzeitig die am 
Bandbreiten-hungrigsten. Auß- 
derm verfügen einige CPUs über 
direkte Verbindungen zur Gra- 
fik-Schnittstelle (rote Linie). 


An den PCH angebundene 
Komponenten sind meist etwas 
weniger Ressourcen-hungrig 
(orangefarbene Linien). Dennoch 
kann die schiere Menge der 
Komponenten die Verbindung zur 
CPU (DMI) an ihre Grenzen brin- 
gen (blaue Linie). 


zuverlässig funktionieren. Mehr 
Phasen sind zwar grundsätzlich, 
aber nicht zwangsläufig besser, da 
auch die Qualität der einzelnen 
Bauteile eine große Rolle spielt 
und bei zunehmender Komplexität 
Signal- und Timing-Probleme eher 
auftreten können. Auch die Ener- 
gieeffizienz kann von einer überdi- 
mensionierten Stromversorgung in 
Mitleidenschaft gezogen werden. 
Bei manchen Mainboards wird die 
Phasenanzahl daher lastabhängig 


variiert. 


Der Chip(-satz) 

Ein klassischer Mainboard-Chip- 
satz umfasst eine North- und eine 
Southbridge. Deren Namensge- 
bung leitet sich von der üblichen 
Positionierung auf dem PCB ab - 


die Northbridge sitzt oben, nahe 
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bei der CPU und dem RAM, die 
Southbridge befindet sich unten, 
bei den Steckplätzen für Erwei- 
terungskarten und Laufwerksan- 
schlüssen. Seit vielen Jahren verfü- 
gen die Mainboards aber nur noch 
über einen Baustein, der alle Funk- 
tionen übernimmt. Ein Großteil 
der ehemaligen Northbridge-Funk- 
tionalität, allen voran der Speicher- 
controller, wurde direkt in den 
Prozessorkern verlagert (siehe Ka- 
pitel dort). 


Intel nennt den zentralen Chip auf 
dem Mainboard knapp „PCH“ („Plat- 
form Controller Hub“), bei AMD 
hieß dieser zuletzt „Fusion Control- 
ler Hub“, jetzt aber wieder „Chip- 


“ 


set“. Dieser verbliebene Baustein 
wird meist entweder per PCI-Ex- 


press (bei Intel DMI, Direct Me- 
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dia Interface genannt) oder Hyper 
Transport (AMD) an den Prozessor 


angebunden. 


Das BIOS 

Beim „Basic Input Output System“ 
(BIOS) handelt es sich um die 
Firmware eines PCs, die auf einem 
EEPROM oder Flashspeicher abge- 
speichert ist und nach jedem Start 
des PCs ausgeführt wird. Noch be- 
vor Windows geladen wird, sorgt es 
dafür, dass alle wichtigen Kompo- 
nenten auf ihre Funktion überprüft 


und angesprochen werden können. 


Der BIOS-Nachfolger (U)EFI erlaubt 
noch weit mehr Funktionen und 
sorgt für eine einfachere Bedie- 
nung. Mehr Informationen dazu so- 
wie zu allen anderen Mainboard-Tei- 


len finden Sie den folgenden Seiten. 


Anm.: Board fiktiv; Angaben teils nicht kaufmännisch gerundet Illustration: eigene 
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Die Mainboard-Bauteile im Detail 


PCI-Express-Slots 


Von den PCI-E-Steckplätzen sind meist nur 
ein oder zwei auch elektrisch als x16-Vari- 
ante ausgeführt. Die verbleibenden sind x1-, 
x2- oder x4-Steckplätze. Bei einigen Platinen 
gibt es außerdem noch einen PCI-Steckplatz 
für ältere Karten, diese Platine verzichtet 
allerdings darauf 


Batterie 


Die Batterie sorgt dafür, dass bestimmte 
Daten wie die Uhrzeit und das Datum nicht 
bei jedem Start erneut eingegeben werden 
müssen 
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Taktgeber 


Ausgehend von einem 14,318-MHz-Oszil- 
lator werden alle Takte im PC von einem 
Taktgenerator-IC erzeugt. Dieser Baustein ist 
auch für flexible OC-Optionen verantwortlich 


M.2-SSD 


Da Flash-basierte SSDs sehr kompakt sind, 
können diese direkt auf dem Mainboard 
„angesteckt“ werden. Voraussetzung ist ein 
sogenannter M.2-Anschluss 


ail 


Anschlussfeld e BCC 


Hier werden der An- und Aus- sowie der Re- 
setknopf des Gehäuses und Zustands-LEDs, 
die zum Beispiel die Festplattenaktivität 
anzeigen, angeschlossen 


/O-Hub („Chip“) 


Nach der Lage auf dem Schaltplan wurde 
dieser Baustein früher „Southbridge“ ge- 
nannt. Heute gibt es aber keine zugehörige 
„Northbridge“ mehr und aus dem „Chipsatz“ 
ist ein schlichter „Chip“ bzw. „PCH“ (Intel) 
geworden. Dieser stellt immerhin noch 
Anschlüsse für PCI-Express, USB und SATA 
bereit. Außerdem kontrolliert der Baustein 
den PCI-Bus, Audiofunktionen, Firewire, LAN 
sowie alte Schnittstellen über den LPC-Bus 
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Externe Anschlüsse CPU-Stromversorgung 


Neben Eingabegeräten (PS/2, USB) lassen Für die Stromversorgung der CPU inklusive der integrierten Komponenten 
sich hier unter anderem Plug&Play-Daten- wie System Agent, Grafikkern, Speichercontroller etc. kommen meist 
speicher (USB/E-SATA), Netzwerk-Hardware mehrere Polymerkondensatoren und Ferritkernspulen sowie 16 bis 24 
(LAN) und Audio-Geräte anschließen MOSFETs zum Einsatz (hier unter einer Zierblende verborgen) 


Stromanschluss 


Mit Energie wird das Mainboard über einen 
24-poligen ATX-Stromanschluss und ein 
separates, 8-poliges ATX-12-Volt-Anschluss- 
feld versorgt 


CPU-Sockel 


Der Sockel stellt die Verbindung zum 
Prozessor über Kontakte her; üblich sind 
mehr als 1.000 Stück bei aktuellen Modellen. 
Der Großteil davon wird für die Leitungen 
zum Speicher benötigt 
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DDR3/4-RAM-Slots 


Für den Dual-Channel-Betrieb muss ein Spei- 
cherriegel-Paar in gleichfarbige Slots eingesetzt 
werden. Maximal lassen sich meist 4 x 16 
GiBye nutzen. Der Arbeitsspeicher ist direkt an 
die Northbridge bzw. die CPU angebunden 
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Diagnose-LEDs 


Einige Platinen verfügen über Diagnose-LEDs, 
welche den aktuellen Status-Code des Boards 
ausgeben. Dies kann bei der Fehlersuche 
helfen 


Stromanschluss 
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Sonderfunktionen 


Vor allem auf teureren Mainboards finden sich man- 
chmal Schalter für besondere Funktionen. So kann 
man beispielsweise ein Backup-BIOS einspielen, 

was vor allem für Übertakter sehr nützlich ist und bei 
fehlgeschlagenen BIOS-Updates hilft. Bei Asus darf 
man sich zudem über „ROG Connect“ freuen, das die 
ferngesteuerte Übertaktung des Rechners im laufen- 
den Betrieb ermöglicht. Ebenfalls häufiger anzutreffen 
sind WLAN-, Bluetooth- oder Rest-Taster 
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PS/2 


Viele Platinen haben mittlerweile 
gar keine PS/2-Ausgänge mehr, 
auch wenn die vollständige 
Verdrängung der Schnittstelle 
bis heute auf sich warten lässt. 
Gelegentlich wird ein kom- 
binierter Anschluss verbaut, der 
die Maus-Funktionalität auf zwei 
normalerweise ungenutzte Pins 


Displayport 


Neuere Mainboards verfügen zusätzlich 
über einen Displayport, der unter an- 
derem einen Kopierschutz unterstützt. 
Für die Displayport-Schnittstelle gibt es 
mehrere Spezifikationen, die aktuelle 
ist Version 1.4. Früher übliche D-Sub- 
Buchsen sind von der I/O-Blende des 
Mainboards praktisch verschwunden, 
DVI-Buchsen noch häufiger anzutreffen 
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im Tastatur-Anschluss legt. Zwei znsnnnnnnssnnnnnsnnnnnnsnnnnnn nmn e d 


separate PS/2-Anschlüsse — 
getrennt für Maus und Tastatur - 
finden sich nur noch selten 


USB 2.0 


Der heute wichtigste An- 
schlusstyp am I/O-Panel eines 
Mainboards sind externe USB- 
Ports. Vor rund zwei Jahrzehnten 
eingeführt, ist USB heute der 
bevorzugte Anschluss für fast 
jede Form externer Peripherie. 
USB-2.0-Anschlüsse bieten dabei 
eine Maximalgeschwindigkeit von 
480 MBit/s (60 MByte/s) - effektiv 
bleibt unter anderem wegen der 
Codierung viel weniger übrig 
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USB 3.0 


Die Nachfolge-Version 3.0 von USB ist 
nun schon einige Jahre auf dem Markt. 
Um entsprechende Anschlüsse von 

den älteren 2.0-Ports unterscheiden 

zu können, werden diese bei nahezu 
allen Herstellen farblich abgesetzt (oft 
in der Farbe Blau). USB 3.0 bietet eine 
maximale Geschwindigkeit von 5 GBit/s 
(625 MByte/s), von der effektiv rund 
500 MByte/s bleiben, und dies natürlich 
auch nur dann, wenn das USB-Gerät so 
schnell Daten liefern kann 


HDMI 


Seit Prozessoren einen integ- 
rierten Grafikkern mitbringen, 
ist auf fast jeder Hauptplatine 


ein Monitoranschluss anzutref- 
fen. Fast immer dabei: eine 
HDMI-Buchse, mit der sich die 
meisten Flachbildschirme der 
vergangenen Jahre betreiben 
lassen - aber nicht alle! 
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USB 3.1 


Der scheinbar kleine Versionssprung 

von 3.0 auf 3.1 sorgt immerhin für eine 
Verdoppelung der Datenrate (10 GBit/s, 
1.250 MByte/s). Auf Mainboards sind 
solche Anschlüsse meist ebenfalls 
farblich ausgezeichnet (hier: türkis, 
manchmal auch rot). Leider gibt es keine 
einheitlichen Standards für die Farbe und 
zudem viel Verwirrung um neue Über- 
tragungsmodi sowie Steckertypen. Im 
USB-Abschnitt weiter hinten im Kapitel 
bemühen wir uns um Aufklärung 
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LAN 


Als Gigabit-LAN-Controller günstiger wurden und 


irgendwann für wenige Cent zu haben waren, 


begannen die Mainboard-Hersteller, ihre Boards 
mit entsprechenden Anschlüssen vollzustopfen - 
nahezu jede Platine brachte zwei LAN-Anschlüsse 
mit. Mittlerweile ist etwas Vernunft eingekehrt und 
die meisten Platinen beschränken sich auf einen 
Anschluss. Der Platz wird heute eher für USB- und 


Displayanschlüsse verwendet 


USB 3; Typ C 


Weiter geht’s im USB-,„Wahnsinn“: 
Ein neuer Steckertyp (der auch bei 
neueren Smartphones zu finden 
ist) soll Anschlussprobleme künftig 
verhindern. Es gibt zum Beispiel 
kein verkehrtes Einstecken mehr 

- der Stecker funktioniert immer, 
egal, wie herum man ihn an- 
schließt. Was technisch drinsteckt, 
weiß man aber nicht - von USB 1.0 
bis sogar „artfremden“ Schnittstel- 
len wie dem Displayport ist alles 
möglich 


WLAN 


Auch Wireless-LAN braucht Kabel 
- nämlich vom Controller zur An- 
tenne. Entsprechend ausgestattete 
Mainboards verfügen deswegen 
über entsprechende Antennen- 
(Kabel-)Anschlüsse am I/O-Panel 


Mainboard 


Soundanschlüsse 


Mit der Verbreitung von Onboard-Sound 
sind auch Audio-Aus- und Eingänge auf 
Mainboards gewandert Typisch ist heute 
ein Funktionsblock mit fünf analogen An- 
schlüssen und einem optischen Ausgang, 
einige Mainboards nutzen aber auch sechs 
3,5-mm-Klinke-Buchsen für getrennten Line- 
sowie Mic-In und platzieren den oder die 
digitalen Anschlüsse separat. Auf günsti- 
gen Mainboards sind dagegen oft nur drei 
Buchsen verbaut, dank flexibler Port-Konfig- 
uration der meisten Onboard-Chips können 
daran wahlweise ein 5.1-System oder eine 
Kombination aus Stereo-Ausgabe- und 
Eingabe-Geräten angeschlossen werden. 
Die Farbcodes sind normiert und haben die 
folgende Bedeutung: 


Eingang für externe 
Quellen (AUX) 


Ausgang für Frontlautsprech- 
er oder (alternativ) Kopfhörer 


Eingang für das Mikrofon 


Ausgang für Center-Laut- 
sprecher/Subwoofer (bei 2.1-, 
4.1-, 5.1- oder 7.1-Systemen) 


Ausgang für hintere 
Lautsprecher 


Optischer Ausgang 


*Hypothetisches Mainboard mit nahezu allen verfügbaren Anschlüssen 
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Mainboard: PCI-Express 


PCI-Express stellt höchste 
Bandbreiten zur Verfügung, 
die unter anderem von Gra- 
fikkarten benötigt werden 

- nur so laufen auch High- 
End-Spiele ruckelfrei 
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eit knapp 16 Jahren ist PCI-Ex- 
Ss. die wohl wichtigste 
Schnittstelle auf der Hauptplati- 
ne. PCI-Express gilt als Nachfolger 
zweier Techniken, nämlich der 
AGP-Schnittstelle für Grafikkarten 
und des PCI-Busses für alle anderen 


Erweiterungskarten. 


Doch nicht nur Erweiterungskar- 
ten, sondern auch Zusatzcontroller, 
externe Peripherie, interne Lauf- 
werke und andere Komponenten 
greifen immer häufiger auf die 
Schnittstelle zurück. Die Flexibilität 
von PCI-E wird jedoch intensiver 
genutzt als je zuvor, was in dieser 
Form eigentlich nie geplant war. 
Doch der Reihe nach. 


PCI und PCI-Express 

Um zu verstehen, wie PCI-Express 
funktioniert, ist ein Blick in die Ver- 
gangenheit hilfreich: Der PCI-Bus 
hatte sich über eine ganze Dekade, 
etwa von 1994 bis 2004, bewährt 
und brachte unzählige Erweite- 


rungskarten hervor. 


Die ursprüngliche Spezifikation 
wurde von der PCI-SIG ausgearbei- 
tet, einem 1992 gegründeten Kon- 
sortium, bestehend aus führenden 
Unternehmen im IT-Bereich (AMD, 
Compaq, Hewlett-Packard, IBM, 
Intel, Microsoft, Phoenix Techno- 
logies, Serverworks and Texas Inst- 
ruments). Es verwaltet und kontrol- 
liert alle Aktivitäten, Entwicklungen 
und Spezifizierungen rund um den 


PCI-Bus und dessen Nachfolger. 


Ein riesiger Vorteil und eines der 
Hauptanliegen bei der Entwicklung 


von PCI-Express war es, dass sich das 


Software-Modell nicht vom klassi- 
schen PCI-Bus unterscheidet. Für das 
Betriebssystem sind demnach keine 
PCI-Express-Treiber nötig, anders als 
es etwa bei AGP der Fall war, wo ein 
spezieller GART-Treiber nötig war 
(ein Umstand, der oft für Stabilitäts- 


probleme verantwortlich war). 


Schnellere Geräte 
verlangen schnellere 
Schnittstellen 

Doch es ging nicht nur um die 
Treiber: Zum Ende der Sockel-A- 
/478-Ära wurden die Limits von PCI 
überdeutlich. PCI taktete seine 32 
Datenleitungen noch immer mit 
33 MHz. Versuche, die Leistungs- 
fähigkeit durch höhere Taktraten 
und einen breiteren Bus zu steigern 
(PCI 66 MHz, PCI 64 Bit, PCI-X - 
letzterer ist nicht mit PCI-Express 
zu verwechseln), waren nur im 
Servermarkt erfolgreich gewesen. 
Auf Endkunden-Mainboards stieg 
der Bedarf für schnelle Anbindun- 
gen mit der Verbreitung von Gigab- 
it-LAN- und SATA-Zusatzcontrollern 


unterdessen weiter. 


Bei theoretischen Datentransferra- 
te von bis zu 150 MByte/s war von 
etwa 2002 an bereits ein einziges 
Endgerät in der Lage, den PCI-Bus 
zu überlasten. In einer Bus-Archi- 
tektur müssen die knappen Res- 
sourcen aber für alle Endgeräte 
reichen. Spätestens wenn Nachla- 
devorgänge von der Festplatte oder 
Netzwerktransfers mit der Ausgabe 
des Spielesounds über eine Sound- 
karte in Konflikt gerieten, wurde 
das Problem auch für Endnutzer 


spürbar. 


Flickschusterei 

Um den PCI-Bus und die Southbrid- 
ge wenigstens vom Netzwerkdaten- 
verkehr zu entlasten, entwickelte 
Intel für seine 2003er-Chipsatzgene- 
ration am Ende eine Spezialschnitt- 
stelle (CSA), die Gigabit-LAN-Con- 
troller direkt mit der Northbridge 


verband. Den gleichen Weg hatten 
Grafikkarten mit AGP bereits Jahre 


zuvor beschritten. 


PCI-Express 

Ein Nachfolger für dieses Sammel- 
surium von zu langsamen oder zu 
spezialisierten Schnittstellen wurde 
somit dringend benötigt: „3GIO“ 
Grd Generation Input/Output) 


sollte die Probleme lösen. 


2003 war es dann soweit: Aus 3GIO 
war mittlerweile „PCI-Express“ ge- 
worden und die ersten Mainboards 
und Grafikkarten erschienen, wenn 
auch zunächst nur in homöopathi- 
schen Dosen. Der Name „PCI-Ex- 
press“ ist etwas irreführend, denn 
mit dem alten PCI-Bus hat diese 
Schnittstelle nur noch das Ansteue- 


rungsprotokoll gemeinsam. 


PCI-Express ist kein Bus mehr, 


sondern eine bzw. mehrere 
Punkt-zu-Punkt-Verbindungen, die 
über einen Switch skalierbar sind, 
ähnlich wie bei einem LAN. Auf- 
grund des seriellen Aufbaus kann 
PCI-Express auf deutlich höhere 


Taktfrequenzen zurückgreifen. 


Serielle vs. parallele 
Datenübertragung 

Für PCI müssen 32 Datenleitungen 
(64 in den Servervarianten) ne- 
beneinander auf dem Mainboard 
und den Steckkarten verlegt wer- 
den. Trotz zahlreicher Richtungs- 
änderungen muss die Länge dieser 
Leitungen dabei immer identisch 
sein, denn die Zuordnung der par- 
allel übertragenen Bits wird bei PCI 
durch den Sende- und Empfangs- 
zeitpunkt definiert. Kommen die 
gleichzeitig auf allen 32 Leitungen 
gesendeten Bits nicht auch zum 
gleichen Zeitpunkt beim Emp- 
fänger an, ist die Information un- 


brauchbar. 


Leichte Unterschiede in der Daten- 


laufzeit sind allerdings kaum ver- 


meidbar. Damit alle Bits innerhalb 
eines Taktzyklus eintreffen, ist die 
maximale Taktrate des Busses be- 


schränkt. 


Wie USB oder SATA umgeht PCI-Ex- 
press dieses Problem durch eine se- 
rielle Übertragung. Alle Daten wer- 
den nacheinander auf der gleichen 
Leitung gesendet. Da die Laufzeiten 
auf der gleichen Ader zwangsläufig 
identisch sind, treffen die Daten 
somit automatisch in der richtigen 


Reihenfolge beim Empfänger ein. 


Ein weiteres Problem für die Signal- 
qualität war bei PCI das Bus-Kon- 
zept an sich. An offenen Endpunk- 
ten einer elektrischen Leitung und 
an unsauberen Verzweigungen sind 
Auf- 


grund der zahlreichen Abzweigun- 


Signalreflexionen möglich. 


gen zu ungenutzten Slots hat PCI 
von beidem reichlich, entsprechend 
stark war das Signalrauschen. Die 
ebenfalls zahlreich vorhandenen 
Empfänger dämpfen umgekehrt die 
Signalstärke insgesamt. PCI-Express 
sich beider Probleme 
Die 


Leiterbahnen einer PCI-Express-Ver- 


entledigt 


schon konstruktionsbedingt: 


bindung verlaufen ohne alternati- 
ve Endpunkte von Host-Controller 


zum einzigen Empfänger. 


Takte und Leitungen 

Natürlich muss der Takt dabei 
viel höher sein als bei einer seriel- 
len Übertragung, um die „fehlen- 
den“ Leitungen zu kompensieren. 
PCI-Express 1.0 arbeitet mit einer 
Grundfrequenz von 1,25 GHz, also 
einem Vielfachen des PCI-Taktes. 
Die Transferrate liegt somit the- 
oretisch bei 2,5 GBit/s (1 Bit pro 
Hertz). Da die Übertragung jedoch 
im 8b10b-Code erfolgt, wo 2 Bit der 
Fehlerkorrektur dienen, bleiben 
unter dem Strich nur 2 GBit/s oder 
250 MByte/s an Nutzbandbreite üb- 
rig - eine „Verschwendung“ von im- 
merhin 20 Prozent, auf die wir spä- 


ter noch zurückkommen werden ... 


Mainboard 


Ein aktueller PCI-Express-x16-Steckplatz 
(Mitte, lang und schwarz). Unmittelbar dar- 
unter befindet sich ein x1-Steckplatz (eben- 
falls schwarz), der deutlich kürzer ist 


Übertragungsgeschwindig- 
keiten im Vergleich 


Jahr Max. Takt Busbreite* | Max. Datenübertragung 
ISA (XT-Bus) 1981 |4,77 MHz |8Bit 4,77 MByte/Sek. 
ISA (AT-Bus) 1984 |8 MHz 16 Bi 16 MByte/Sek. 
EISA 1988 |8,33 MHz |32 Bi 33 MByte/Sek. 
VLB (Vesa Local Bus) | 1992 |40 MHz 32 Bi 160 MByte/Sek. 
PCI 1.0 1991 | 33 MHz 32 Bi 133 MByte/Sek. 
PCI 2.x/3.0 1992 |66 MHz 64 Bi 533 MByte/Sek. 
PCI-X 1.0 1998 |133 MHz |64 Bi 1.066 MByte/Sek. 
PCI-X 2.0 2003 |533 MHz |64 Bi 4.264 MByte/Sek. 
PCI Express 1.0 x1 |2003 | 1.250 MHz | 8Bit/10 Bit 250 MByte/Sek. 
PCI Express 1.0 x4 |2003 |1.250 MHz | 8Bit/10 Bit 1.000 MByte/Sek. 
PCI Express 1.0 x8 |2003 |1.250 MHz | 8Bit/10 Bit 2.000 MByte/Sek. 
PCI Express 1.0 x16 | 2003 | 1.250 MHz | 8Bit/10 Bit 4.000 MByte/Sek. 
PCI Express 2.0 x1 |2007 |2.500 MHz | 8Bit/10 Bit 500 MByte/Sek. 
PCI Express 2.0 x4 |2007 |2.500 MHz | 8Bit/10 Bit 2.000 MByte/Sek. 
PCI Express 2.0 x8 |2007 |2.500 MHz | 8Bit/10 Bit 4.000 MByte/Sek. 
PCI Express 2.0 x16 | 2007 | 2.500 MHz | 8Bit/10 Bit 8.000 MByte/Sek. 
PCI Express 3.0 x1* | 2011 | 4.000 MHz | 128Bit/130Bit | 985 MByte/Sek. 
PCI Express 3.0 x4* | 2011 | 4.000 MHz | 128Bit/130Bit | 3.938 MByte/Sek. 
PCI Express 3.0 x8* | 2011 | 4.000 MHz | 128Bit/130Bit | 7.877 MByte/Sek. 
PCI Express 3.0 x16* 2011 | 4.000 MHz | 128Bit/130Bit | 15.754 MByte/Sek. 
PCI Express 4.0 x16* 2017 | 8.000 MHz | 128Bit/130Bit | 31.508 MByte/Sek. 


* Wechsel der Datenkodierung von 8/10 Bit auf 128/130 Bit, dadurch höhere Netto-Ausbeute 
** Bei PCI-Express: Fehlerkorrekturbits (Busbreite hier: jeweils 1 Bit für Hin- und Rückkanal) 
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Für Notebooks gibt es seit 2005 auch eine kleine Version von PCI-Express: 


Mini-PCI-Express findet sich aber nicht nur dort, sondern auch auf vielen 
Mini-ITX-Mainboards. Mit dem richtigen Adapter können auch vollwertige 
Erweiterungskarten angebunden werden 


Wie POI-Express-Lanes 
Daten übertragen 


Die Daten werden bei PCle seriell auf einer oder mehreren Lanes über- 
tragen. Durch Zusammenschalten mehrerer Lanes wird die Transferrate 
ver-x-facht. 


x1 x4 


8b/10b 8b/10b 8b/10b 8b/10b 8b/10b 


Lane 0 Lane 1 Lane 2 Lane 3 


Lane 0 
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Beim alten PCI-Bus wurden die Lei- 
tungen abwechselnd zum Senden 
und zum Empfangen von Daten 
genutzt („halbduplex“). Das ist in ei- 
nem Bus hilfreich, wo verschiedene 
Geräte Sender und Empfänger sein 
können. Es erfordert aber auch ein 
aufwendiges System der Buszutei- 
lung („Arbitrierung“), welches da- 
für sorgen muss, dass klar geregelt 
ist, welcher Teilnehmer an wen sen- 
den darf. 


Da diese Arbitrierung weggefal- 
len ist, sieht PCI-Express für jede 
Verbindung einen Hin- und einen 
Rückkanal vor, ein Leitungspaar 
also. Ein solches Leitungspaar heißt 
„Lane“ (vom englischen „Lane“, zu 
deutsch „Spur“ oder eben Leitung). 
Daten können simultan gesendet 
und empfangen werden. Wegen 
der gleichzeitig möglichen Übertra- 
gung auf dem Hin- und Rückkanal 
liest man oft auch von 500 GByte/s 
Gesamtbandbreite je (1.0-)Lane. 


Skalierung 

und Ausbaustufen 

Mit den genannten Daten ist bereits 
die einfachste PCI-Express-Varian- 
te mit nur einer Lane bei erheblich 
geringerem Implementierungsauf- 
wand deutlich schneller als der alte 
PCI-Bus. Für Geräte, die noch mehr 
Transferrate benötigen, etwa Grafik- 
karten oder RAID-Controller, kön- 
nen aber zusätzlich mehrere dieser 


Lanes zusammengefasst werden. 


Daher gibt es für PCI-Express nicht 
nur eine Slot-Variante, sondern mit 
x1, x4, x8 und x16 gleich mehrere. 
Die höchste Ausbaustufe mit 16 „La- 
nes“ wird auch als „PEG“ („PCI-Ex- 
press for Graphics“) bezeichnet. 
Eine kurze Bandbreitenrechnung: 
In einfacher Richtung befördert ein 
PCle-x4-Gerät 1,0 GByte, eine PCIe- 
x8-Karte 2,0 GByte und ein PCle- 
x16-Steckplatz 4,0 GByte Daten pro 
Sekunde über die Leitung - den 


Overhead schon abgezogen, und, 


wie erwähnt, nur in einer Richtung. 
Die gleiche Bandbreite steht jeweils 
auch in der anderen Richtung zur 


Verfügung! 


Designüberlegungen 

Warum nicht gleich einen Slot mit 
der maximalen Lane-Anzahl? Für 
viele Anwendungen wäre diese 
Bandbreite überdimensioniert und 
außerdem war es eines der Ziele der 
PCI-SIG, eine möglichst kostengüns- 
tige Fertigung zu ermöglichen. Im- 
mer sind zumindest theoretisch alle 
Ausbaustufen miteinander kombi- 
nierbar, eine x1-Karte funktioniert 
immer auch in einem x16-Steck- 
platz - und es gibt noch viel mehr 
Möglichkeiten, dazu mehr auf der 


übernächsten Seite. 


Noch ein Detail am Rande: Trotz 
der gleichzeitigen Nutzung mehre- 
rer Datenleitungen handelt es sich 
bei PCI-Express nicht um eine paral- 
lele Schnittstelle. Jede Lane für sich 
arbeitet unabhängig und verschickt 
einzelne, in sich geschlossene Da- 
tenpakete. Zusammengefügt wer- 
den die Daten erst im Empfänger 
anhand der Sequenznummern der 
Pakete. Hierbei ist es unerheblich, 
in welcher Reihenfolge die Pakete 
eintreffen. Sogar ein erneuter Ver- 
sand bei Übertragungsstörungen 
auf einer Lane ist möglich, ohne 
dass CPU oder GPU in ihrer Arbeit 


gestört werden. 


Weitere Ausbaustufen 

Natürlich blieb es nicht bei der 
Ur-Version von PCI-Express. 2007 
folgte die Revision 2.0 des Stan- 
dards. Hier wurde die Grundfre- 
quenz von 1,25 GHz auf 2,5 GHz 
verdoppelt, was auch zu einer Ver- 
doppelung der möglichen Trans- 
ferrate führte. PCI-Express-2.0-x16- 
Geräte (zum Beispiel Grafikkarten) 
können damit bis zu 8 GByte/s 
senden und empfangen, was einer 
Gesamtbandbreite (hin und zu- 


rück) von 16 GByte/s entspricht. 


Dennoch ist PCIe 2.0 voll abwärts- 
kompatibel zum PCle-1.x-Standard. 
PCIe-2.0-Geräte können problemlos 
in PClIe-1.x-Slots eingesetzt werden, 
PCle-1.x-Geräte in PClIe-2.0-Slots. 


PCI-Express 3.0 

Seit 2011 ist PCI-Express 3.0 ver- 
fügbar bei 
High-End-Grafikkarten. Im Vorder- 


grund stand wieder die Verdoppe- 


Hauptplatinen und 


lung der Datenübertragungsrate. 
Allerdings stellte eine weitere Stei- 
gerung um den Faktor 2 die PCI-SIG 
vor offenbar unlösbare Probleme: 
10 Gigahertz über eine Steckver- 
bindung zu übertragen, war unter 
den Vorgaben der kostengünstigen 
Bauweise und der Abwärtskompa- 
tibilität zunächst nicht in die Praxis 
umzusetzen. Für PCI Express 3.0 
konnte man mit den herkömmli- 
chen Methoden nur eine Taktfre- 
quenz von 4 GHz erreichen - 60 
Prozent mehr als im 2.x-Standard 


definiert. 


Um die Transferrate noch weiter zu 
erhöhen, beschäftigte sich das Kon- 
sortium mit dem recht verschwend- 
erischen Overhead, den 20 Prozent, 
von denen wir eingangs schon ge- 
sprochen haben. Anstelle des vori- 
gen 8b10b-Schemas kommt nun ein 
Verfahren zum Einsatz, bei dem 130 
Bit große Datenpakete übertragen 
werden, die jeweils 128 Bit Nutzda- 
ten enthalten. Der Overhead sinkt 
auf rund 1,6 Prozent, die nutzbare 
Bandbreite steigt auf knapp 8 GBy- 
te/s in einer Richtung. Die Verdop- 


pelung ist somit fast perfekt. 


PCI-Express 4.0 

Nach einigen Verzögerungen steht 
nun auch PCI-E 4.0 vor der Tür - 2019 
sollen erste Produkte erscheinen. 
Die Übertragungsgeschwindigkeit 
wird erneut gesteigert, dieses Mal 
auf knapp 16 GByte/s in einfacher 
Richtung. Damit die Signale bei der 
Taktfrequenz von nunmehr 8 GHz 


auch noch lesbar bleiben, wurden 


einige Parameter angepasst. So darf 
die Leitungslänge jetzt nur noch we- 
nige Zentimeter betragen, während 
es vorher mehr als ein halber Me- 
ter war. Außerdem erfordert PCIe 
4 bessere Steckverbindungen, was 
die Implementierung aber auch ge- 
ringfügig teurer macht. Immerhin 
kommt die jüngste Generation der 
Schnittstelle nach wie vor ohne op- 


tische Datenübertragung aus. 


Stromtransport 

Ein Problem, das sich im Laufe der 
Jahre bei PCI und AGP entwickelt 
hatte, war die Stromversorgung. Als 
die Spezifikationen festgelegt wur- 
den, hatte niemand daran gedacht, 
dass eine Grafikkarte 100 Watt oder 
mehr an elektrischer Leistung auf- 
nehmen würde. Entsprechend wa- 
ckelig konnte ein solches System in 
Sachen Stabilität sein, denn der PCI- 
Slot war lediglich für 25 Watt spezi- 
fiziert. Bei einem PEG-(PCle-x16)- 
1.0-Slot sind es immerhin 75 Watt, 


was aber immer noch zu wenig ist. 


Bei High-End-Grafikkarten sieht die 
Spezifikation daher unterschiedli- 
che Zusatzstecker zur Stromversor- 
gung vor, sogenannte PCI-Express 
(Graphics) Power Supply Connec- 
tor (auch PEG-Connector), die +12V 
liefern. Die erste Version der Zusatz- 
stecker hat 6 Pins und kann bis zu 
75 Watt zusätzlich liefern, wodurch 
die dem Gerät maximal bereitge- 
stellte Leistung auf 150 Watt steigt. 
Bei Nutzung zweier solcher Stecker 


sind sogar bis zu 225 Watt möglich. 


In der Spezifikation von PCI-Ex- 
press 2.0 wurde ein neuer Zusatz- 
stecker mit 8 Pins definiert, der 
maximal 150 Watt führen kann. 
Für noch höhere Leistungen kann 
ein zusätzlicher Stecker mit 6 Pins 
genutzt werden, der jedoch nur 
weitere 75 Watt führt, wodurch die 
maximale Aufnahmeleistung einer 
PCI-Express-Karte auf insgesamt 
300 Watt begrenzt ist. 


Mainboard 


Wie eine POI-Express-Lane 
aufgebaut ist 


PCI-Express kann auf separaten Leitungen in beide Richtungen gleich- 
zeitig senden. Die Kombination der dafür nötigen Leitungspaare nennt 
man Lane. 


Paket — 


— Paket 


Wie PCI-Express Übertra- 
gungsfehler verhindert 


Bussysteme wie PCI kämpfen 
mit verschiedenen Problemen: 
Schwierig ist es nicht nur, 

das gleichzeitige Ankommen 
der Daten sicherzustellen. 
Probleme bereitet auch die 
Signalqualität an sich. Die 32 
Leitungen (bei PCI, siehe Ab- 
bildung rechts) beeinflussen 
sich gegenseitig, zudem kann 
es an jedem Zwischen- und 
Endpunkt der Bus-Topologie zu Signalreflexionenen kommen, welche 
die Signale weiter „verwaschen“. 


Bei PCI-Express erfolgt die Übertragung eines Bytes dagegen mithilfe 
von zwei Leitungen: Welcher Wert übertragen wird, bestimmt nun nicht 
die Spannung auf einer Leitung wie bei PCI, sondern die Spannungs- 
differenz von zwei Adern. Der Vorteil: Verfälscht eine Störquelle das 
Signal, so wirkt diese immer auf beide Adern - die Differenz bleibt also 
gleich, auch wenn sich die absolute Spannung ändert. 


Für eine Lane sind physisch also vier Leitungen notwendig: Je eine 
Hin- und Rückleitung, von denen jede wiederum zwei Adern enthält. 
Diese Tatsache führte gerade in der Anfangszeit häufig zu Verwirrung. 


Für alle, die es ganz genau wissen wollen, noch eine Anmerkung zum 
Schluss: Streng genommen arbeitet auch PCI mit zwei Leitungen: einer 
spannungsführenden Leitung sowie der Masseleitung. Störquellen wir- 
ken hier aber nur auf die spannungsführende Ader, daher die schlech- 
tere Signalqualität. 
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Überblick: PCI-Express auf dem Mainboard 
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PCH/USB 


Nicht nur der Prozessor verfügt über 
PCI-Express-Lanes; in aktuellen Architek- 
turen stellen die „Hubs“, also das, was von 
North- und Southbridge übrig ist, weitere 
Leitungen zur Vernetzung bereit. Hier gelb 
markiert sind alle Verbindungen von und zu 
den USB-Anschlüssen (intern wie extern). 
Typischerweise wird ein USB-Controller 
bis 3.0 mit einer x1-Leitung angebunden, 
USB-3.1-Controller dagegen mit zwei 
Lanes. 


PCH/SATA & Co. 


Für SATA-Geräte bis 6G hat der Chipsatz 
eigene Leitungen und ein eigenes Protokoll. 
Die Nachfolgetechniken SATA Express bzw. 
M.2 verwenden nun aber ebenfalls PCI 
Express als Transfermedium. Entsprechende 
Geräte werden meist mit vier oder zwei PCI- 
Express-3.0-Lanes angebunden. 


PCH/PCIe 


Bei allen bandbreitenhungrigen Komponen- 
ten muss ein Mainboard auch noch Platz 
für diverse Einsteckkarten bieten - eine 
zweite Grafikkarte etwa oder Thunderbolt- 
und Soundkarten. Last but not least wollen 
Onboard-Bausteine wie Gigabit-LAN-Chips 
mindestens mit PCI-Express-3.0-x1 an den 
PCH angebunden werden. High-Speed- 
Chips wie Alpine Ridge benötigen sogar vier 
dieser Lanes. 


Mainboard 


CPU/Grafik 


Damit aber auch zwei Grafikkarten gleich- 
zeitig genutzt werden können, integrieren 
viele Mainboards sogenannte PCI-Ex- 
press-,Splitter“. Die Verbindung wird dann 
einmalig beim Einschalten geroutet, je nach- 
dem welche Geräte gerade angeschlossen 
sind. Solche Splitter können nicht nur bei 
Grafikkarten zum Einsatz kommen, sondern 
grundsätzlich bei allen Lanes, die eine 
wechselseitige Nutzung erlauben. 


CPU/Grafik 


Die meisten aktuellen Prozessoren verfügen 
über 16 PCI-Express-Leitungen zur direkten 
Anbindung der Grafikkarte. Im Normalfall 

steckt eine einzelne Grafikkarte im obersten 
Slot - diese erhält dann auch alle 16 Lanes. 


DMI 


Der Prozessor ist in aktuellen PCs mit vielen 
wichtigen Komponenten direkt verbunden 
(Speicher, Grafikkarte, etc.) - aber nicht mit 
allen! Um die Daten des restlichen Systems 
zu übertragen, ist ein „/O-Hub“ (auch 
„PCH“ oder „FCH“) mit eigenen PCI-Ex- 
press-Lanes an den Prozessor gekoppelt. 
Da bei einigen Plattformen aber nur vier 
PCle-x3-Lanes verwendet werden, ist dies 
ein potenzieller Flaschenhals - schließlich 
stellt der PCH seinerseits 20 Lanes mit je 
x1-Bandbreite bereit. 
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So funktioniert 
ein Mainboard: USB 


Nicht immer sind USB-Stecker gleich als solche zu erkennen: Rechts im Bild 
ein älterer USB-2.0-Mini-Anschluss, der kaum noch verwendet wird. Links der 
Micro-3.0-Standard, der die zusätzlichen Kontakte von USB 3 herausführt 


USB-Anschlusstypen: 
Typ A, B und C 


USB-Anschlüsse liegen mittlerweile in drei Varianten vor: Der Typ A 
(links) dürfte den meisten vertraut sein - er ist Quasi-Standard auf allen 
Mainboards. Etwas seltener kommt der Typ B (Mitte) zum Einsatz, in 
der Regel immer auf Geräteseite. Der Typ B hat bei USB-3.0-Geräten 
zusätzlich einen Aufsatz, damit er nicht in ältere Geräte gesteckt werden 
kann. Mit USB 3.1 kam ein weiterer Steckertyp hinzu: Typ C (rechts) ist 
kleiner und passt immer — egal, wie herum man ihn aufsteckt. Dies sind 
die „Fullsize“-Steckertypen. 


m 
A B C 


Daneben gibt es noch jeweils „Mini“- und „Micro“-Varianten von den 
Steckern A und B. Der Micro-B-Stecker düfte dabei den meisten be- 
kannt sein: Er lädt dank EU-Regelung einheitlich (fast) alle unserer 
Smartphones. 
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EH ber USB muss man nicht viel 
Worte verlieren: anschließen, 
abwarten und los - so war es in der 
Vergangenheit zumindest üblich. 
Doch mit der dritten Generation 
der Schnittstelle hat sich das geän- 
dert. 


Mit USB 3.1 begann die Verwirrung 
und mit USB 3.2 wurde es noch 
schlimmer. Hauptgrund: Die Be- 
zeichnung verrät nichts mehr über 
die Datenrate. Zudem wurden und 
werden in der Übergangsphase 
Standards zum Teil umbenannt. 
Und als wäre das nicht genug, rückt 
der Thunderbolt-Standard immer 


näher an USB heran ... 


USB-Generationen 

Dabei war lange Zeit alles ganz ein- 
fach. Die USB-Schnittstelle ist in den 
vergangenen Jahren stetig weiter- 
entwickelt worden. Der aus heuti- 
ger Sicht kaum noch vorstellbaren 
ersten USB-Variante mit Low- und 
Full-Speed-Geschwindigkeiten von 
1,5 beziehungsweise 12 MBit pro 
Sekunde folgte schnell die zweite 
Generation, die immerhin schon 
480 MBit/s übertragen konnte. 


Die stark erhöhte Geschwindigkeit 
war neben der relativ leichten und 
preiswerten Integration einer der 
Hauptgründe für den USB-Erfolg. 
Als immer größere Datenmengen 
von Festplatten, USB-Sticks und Di- 
gitalkameras übertragen werden 
mussten, stieß aber auch die zweite 
Generation an ihre Grenzen. USB 
3.0 verachtfachte 2008 die Daten- 
rate auf 5.000 Mbit (5 Gbit) pro 
Sekunde und schaffte zumindest 


vorübergehend Entlastung. 


USB 3.1 verdoppelte 2013 die Über- 
tragungsgeschwindigkeit von 5 auf 
10 GBit/s, also auf 1.250 MByte pro 
Sekunde. Die doppelte Geschwin- 
digkeit wurde neben einer verbes- 
serten Datenkomprimierung auch 
durch überarbeitete Kabel und 
Stecker erreicht. Und nun kam auf- 
grund ähnlicher Namen und Daten 


erstmals Verwirrung auf. 


Stecker und Schnitt- 

stelle - der Unterschied 
Wer den USB-Durchblick behalten 
will, sollte zunächst zwischen der 
reinen Steckerform und der techni- 


schen Schnittstelle unterscheiden. 


Die Steckerform, das ist beispiels- 
weise der klotzige, rechteckige 
Typ A, den jeder kennt - praktisch 
alle USB-Stick haben einen solchen. 
Der Stecker kann aber auch der 
neue, verdrehsichere USB Typ C 
sein (siehe Kasten links). Mit der 
technischen Schnittstelle dagegen 
bezeichnet man eine USB-Version, 
etwa USB 2.0, und damit immer auch 
die zugrundeliegende Spezifikation. 
Umgekehrt ist eine Typ-C-Buch- 
se kein Garant für die Super- 
Speed-Plus-Geschwindigkeit von 
10 GBit pro Sekunde. Der Port kann 
genauso gut lediglich USB 2.0 (oft 
bei Smartphones der Fall) oder USB 
3.0 unterstützen - eine Übersicht 
der möglichen Kombinationen fin- 
den Sie in der Tabelle auf der nächs- 


ten Doppelseite. 


In der Praxis heißt das auch: Ver- 
traute Regeln, nach denen man 
beispielsweise bei einer blauen 
Buchse von USB 3.0 ausgehen darf, 
während die schwarzen in der Re- 
gel nur USB 2.0 unterstützen, sind 


passé und so nicht mehr gültig. 


Superspeed 

Spätestens hier ist es sinnvoll, die 
Geschwindigkeit nicht mehr nur 
an der Spezifikation festzumachen; 


denn Bezeichnungen wie „USB 


3.1° wurden später aufgeweicht 
und durch Zusätze undurchsich- 
tig gemacht. Als Merkmal für die 
Geschwindigkeit sollte besser der 
„Name“ dienen: Hi-Speed für 480 
Mbit (USB 2.0), Super Speed für 
5.000 Mbit (USB 3.0), Super Speed 
Plus für knapp 10.000 Mbit/s (USB 
3.1) und Super Speed USB 20 Gbps 
für die jüngste Ausbaustufe mit 20 
Gbit (USB 3.2). 


Universeller Stecker 

Wie erwähnt, können Stecker und 
Spezifikation gemischt werden - 
zwar nicht beliebig, aber immer 
noch so, dass es für gehörige Ver- 
wirrung reicht. USB-3.1-Hardware 
kann beispielsweise mit einem äl- 
teren Typ-A-Stecker, aber auch mit 
dem neuen Typ-C-Stecker versehen 


werden. 


Doch damit nicht genug. Ein USB- 
Typ-C-Stecker kann mit einer 


Reihe verschiedener Protokolle 
kommunizieren - mit einigen auch 
gleichzeitig. So kann dieselbe Ver- 
bindung nicht nur Daten in unter- 
schiedlichen Geschwindigkeiten 
übertragen, sondern gleichzeitig 
bis zu 100 Watt an elektrischer Leis- 
tung liefern, wenn die Buchse die 
Spezifikation „USB Power Delivery“ 
mitbringt. Ebenso gut kann Display- 
port 1.3 mit bis zu 5.120 x 2.880 
Pixel bei 60 Hertz und MHL unter- 
stützt werden und die Typ-C-Buch- 
se damit als Anschluss für externe 
Monitore herhalten. Dies wird als 
„Alternate Mode“ bezeichnet; die 
Pins sind also fähig, mehrere Zwe- 


cke zu erfüllen. 


Nutzung und 
Verbreitung 

So ist es seit vielen Jahren zwar 
technisch möglich, ein Notebook 
etwa per USB-C an einen Monitor 
anzuschließen, während das Note- 
book über ein und dasselbe Kabel 
vom Monitor den Strom bezieht, 


ein Bildsignal an ihn sendet und 


den USB-Hub des Monitors betreibt. 
Tatsächlich aber nutzen nur wenige 
Notebooks (hauptsächlich Mac- 
books) USB-C auch als Ladebuchse 
und nur wenige Monitore haben 
eine entsprechende Buchse. USB-C 
als Dockingstation-Verbindung ist 
in wenigen Business-Notebooks 
zu finden, in der Consumer-Sparte 
wird eher alles noch konservativ se- 


parat angeschlossen. 


Thunderbolt 

Die Fähigkeit des USB-Typ-C-Ste- 
ckers, mehrere Funktionen zu 
übernehmen, kommt nicht von un- 
gefähr. Diese stammt von der Thun- 


derbolt-Technik ab. 


Thunderbolt? Ja, denn diese Schnitt- 
stelle wurde gewissermaßen mit 
USB 3 verschmolzen. Um zu ver- 
stehen, wie das kam, müssen wir 
ein wenig zurückblicken. Thun- 
derbolt geht auf eine Initiative von 
Intel zurück, das ab Herbst 2009 
mit dieser Technik viele bis dato 
vorhandene Schnittstellen erset- 
zen wollte. Das Besondere damals: 
Neben einer sehr hohen Übertra- 
gungsgeschwindigkeit und einer in- 
tegrierten Stromversorgung lassen 
sich auch Video- und Audiosignale 
für Displays übertragen. Die Signale 
werden dabei gewissermaßen ver- 
schränkt, so dass eine annähernd 
gleichzeitige Übertragung erfolgt 


(siehe Illustration rechts). 


In der aktuellen Version 3 liefert 
Thunderbolt eine enorme Datenra- 
te von 40 Gbit/s (5.000 MByte/s.). 
Die hohe Geschwindigkeit lässt sich 
beispielsweise dazu nutzen, um 
mehrere Bildschirme zu betreiben, 
was vor allem bei Docking Stations 
für (Business-)Notebooks sinnvoll 


ist. 


Der eigentliche „Clou“ ist aber, dass 
der Standard seit Version 3 den Typ- 
C-Stecker von USB nutzt und auch 
die geforderten 100 Watt elektri- 


Mainboard 


Auch bei Handys muss man sich künftig leider wieder Gedanken um das 


Ladekabel machen. Der jahrelang omnipräsente Mini-B-Stecker wurde und 


wird gerade durch den Typ-C-Stecker (Bild) ersetzt 


Überblick: USB-Standards 


Name Spezifikation Brutto-Datenrate 

Low Speed USB 1.0 1,5 Mbit/s (187,5 kByte/s) 
Full Speed USB 1.0 12 Mbit/s (1,5 MByte/s) 
Hi-Speed USB 2.0 480 Mbit/s (60 MByte/s) 
Super Speed USB 3.0 / USB 3.1 Gen1 | 5.000 Mbit/s (600 MByte/s) 
Super Speed + (Plus) USB 3.1 Gen2 9.697 Mbit/s (1.212 MByte/s) 
Super Speed USB 20Gbps* USB 3.1 Gen2x2 19.394 Mbit/s (2.424 MByte/s) 


Data Only 


Dual 4K + Data 


Thunderbolt kann verschiedene Schnittstellen mit Daten versorgen und zu- 
sätzlich auch noch Bild- und Tonsignale übertragen. 


Wie Thunderbolt Daten 
überträgt 


Bei Thunderbolt können verschiedene Dateninhalte gemischt werden. 
So können nicht nur externe Geräte wie Massenspeicher angeschlos- 
sen werden, sondern auch Anzeigegeräte via Display Port. 


< PO Express’ = 
vvv 


< PCI Express = 


~- Thunderbolt” Cable — vw vw 


Thunderbolt 
Controller 


Thunderbolt 
Controller 


DisplayPort = 
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Bild: Intel 


Bild: One Plus 


*manchmal auch „Super Speed ++“ 


Mainboard 


sche Leistung transportieren kann! 
Ein Thunderbolt-Controller kann 
also immer auch USB-Geräte an- 
sprechen. Umgekehrt kann aber ein 
einfacher USB-C-Anschluss auf dem 
Mainboard nicht automatisch auch 
für Thunderbolt-Geräte 


werden. Es kommt immer auf den 


genutzt 


verbauten Controller an. 


Thunderbolt vs. USB 

Thunderbolt 3 ist demnach zwar 
ähnlich, aber nicht identisch mit 
USB 3/Typ C. Die maximale Band- 
breite von 40 Gbit/s ist außerdem 
(noch) Thunderbolt-xklusiv, USB 
muss sich mit 10 bzw. 20 Gbit/s 


begnügen. Zudem verlangt Intel 
Lizenzgebühren für Thunderbolt, 
weshalb die nötige Infrastruktur 


teurer ist als bei USB. 


Thunderbolt-Blitz 

Wir halten fest: Am Typ-C-Stecker 
lässt sich also nicht mehr erken- 
nen, ob Platine beziehungsweise 
Gerät USB 3.0 (Super Speed), 3.1 
(Super Speed +), 3.2 (Super Speed 
20 Gbps) oder gar Thunderbolt un- 


terstützt. 


Auch das Datenblatt verrät nicht 
immer, um welche Generation von 
USB 3 es sich handelt. Was also tun? 


Es gibt eine Reihe Symbole, die ne- 
ben der Geschwindigkeit auch auf 
die Funktionen Power Delivery 


oder Displayport hinweisen. 


Von USB 3.0 ist bereits das Doppel-S 
bekannt, das dem USB-Symbol ne- 
ben dem Port anhängt. Handelt es 
sich um einen USB-3.1-Anschluss, 
der die 10 GBit pro Sekunde unter- 
stützt, weist zusätzlich eine kleine, 
hochgestellte 10 am Symbol darauf 
hin. Manchmal ist im Netz auch ein 
kleines Plus am Doppel-S zu sehen, 
was auf das Gleiche hinweisen soll. 
Werden außerdem noch 100 Watt 


an Leistung geboten, prangt das 


Symbol auf einer kleinen Batterie. 
Der Displayport wird zusätzlich 
mit einem stilisierten „DP“ gekenn- 
zeichnet. Alles in allem hält das 
USB-Universum nun mehr als zehn 
Logos bereit. Eine Übersicht finden 


in der Randspalte rechts. 


Handelt es sich bei der Typ-C-Buch- 
se um Thunderbolt 3, ist sie meist 
mit einem kleinen Blitz gekenn- 
zeichnet. Der Port bietet dann den 


vollen Strauß aller Funktionen. 


Praxistest 
In der Produktpraxis sind aber 


weder die Symbole einheitlich 


Wie USB-Schnittstellen und Stecker kombiniert werden 


Die erste USB-Variante verfügte noch über zwei Geschwindigkeiten namens Low- und Full-Speed, welche 1,5 beziehungsweise 12 MBit pro Sekunde über- 
tragen konnten - das sind heute kaum mehr vorstellbare 0,2 bis 1,5 MByte/s! 


Ab dem Frühjahr 2000 stand dann die finale Version von USB 2.0 mit dem Hi-Speed-Modus zur Verfügung. Mit bis zu 480 MBit pro Sekunde vervierzigfachte 
man die Übertragungsrate, von der im Praxiseinsatz allerdings weniger als 40 Megabyte pro Sekunde übrig bleiben. Da diese Übertragungsrate für moderne 
Festplatten immer noch viel zu langsam war, wurde 2008 die nächste Ausbaustufe USB 3.0 spezifiziert. 


Alte/gebräuchliche USB 1.0/1.1 USB 2.0 USB 3.0 USB 3.1 USB 3.2 Thunderbolt 3 
(vorherige) Bezeichnung (USB 4.0') 
Logo SUPERSPEED SUPERSPEED + SUPERSPEED + +; 
USB) == USB Een Sieg, Sieg, D THunDersonr 
"Goes 20.002 
Symbol 10 20 40 
Max. Brutto-Datenrate 1,5/12 MBit/s 480 Mbit/s 5 Gbit/s 10 Gbit/s 20 Gbit/s 40 Gbit/s 
Max. nutzbare Netto-Datenrate 130 KB/s/1 MB/s 40 MB/s 300 MB/s 900 MB/s 1.800 MB/s 3.600 MB/s 
Neuel/offizielle Bezeichnung USB 1.0/1.1 USB 2.0 USB 3.2 Gen. 1 USB 3.2 Gen. 2 USB 3.2 Gen 2x2 Thunderbolt 3 
(ehem. 3.1 Gen. 1) (ehem. 3.1 Gen. 2) 
Speed-Bezeichnung Low Speed/Full Speed High Speed Super Speed Super Speed+ Super Speed++ - 
Max. Leistung (=V*A) 0,5 Watt 2,5 Watt 4,5 Watt 4,5 Watt’ 4,5 Watt4 10, 60 oder 100 Watt 
Spannung 5V 5V 5V 5V 5V 5, 12 oder 20 V 
Stromstärke 0,1 A 0,5A 0,9A 0,9A 0,9A 2 oder 5A 
Anschlüsse m 
= = emn, SEN EN 
TypA TypA Type A Type C Type C 
men ` 
= m) im 
Typ B? Typ B? Typ B 3.0 

ei en 

Mini-A?  Mini-B? Mini-A?  Mini-B? Micro-B 3.0° 

Micro-A?  Micro-B Micro-A? _Micro-B Type C Noch nicht spezifiziert, wird im Sommer 2019 finalisiert. 

yP 2 Kaum verwendet, sehr exotisch. 
mmer 3Wird von USB-C ersetzt und stirbt aus. 
ee *Ohne USB Power Delivery. Kann über USB-PD verfügen. 
ype 
| 
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gestaltet, noch vollständig ausge- 
wiesen. Der USB-3.0-Anschluss an 
Notebooks oder Mainboards ist 
beispielsweise nicht unbedingt 
blau. Der Hersteller färbt ihn gerne 
um, so wie es ihm ins Farbschema 
passt. Bei der USB-C-Buchse handelt 
es sich selten um das bisher lizenz- 
pflichtige Thunderbolt 3, meist 
handelt es sich um USB 3.0 oder 3.1. 
Mit Glück ist auch bei Notebooks 
manchmal Displayport dabei. Im 
Zweifel hilft nur ein Blick ins Hand- 
buch des Notebooks oder des Main- 
boards - oder auch schlichtes Aus- 


probieren. 


USB 3.1 Gent und Gen2 
Bei Händlern kursieren darüber hi- 
naus weitere Bezeichnungen. USB 
3.0 wurde zwischenzeitlich auch 
als USB 3.1 Gen1 bezeichnet - und 
da das einfach viel fortschrittlicher 
klingt, haben viele Hersteller ihre 
Produkte einfach umgelabelt. Man 
merkt sich am besten einfach: Wo 
USB 3.1 Gent draufsteht, sind nur 
die altbekannten 5 GBit pro Sekun- 
de möglich und es ist von USB 3.0 
mit Super Speed die Rede. 


Erst mit dem Zusatz „Gen2“ oder 
bietet die 
USB-3.1-Schnittstelle die doppelte 


„Super Speed Plus“ 


Geschwindigkeit des neueren Stan- 


dards von 10 GBit pro Sekunde. 
Der gleiche Name - also USB 3.1 
Genl und Gen2 - ergibt lediglich 
aus technischer Sicht Sinn: Die dif- 
ferenziellen Leitungspaare haben 
sich nicht verändert, nur der Takt 
hat sich verdoppelt und eine effizi- 
entere Kodierung (128b/132b statt 
8b/10b) wird verwendet. 


Noch mehr Namen ... 
USB 3.2 setzte den vorläufigen 
Schlusspunkt. Und erneut kam es 
zu Änderungen bei den Bezeich- 
nungen. Laut Spezifikation wird das 
ohnehin schon in USB 3.1 Gen. 1 
umbenannte USB 3.0 nochmals in 
USB 3.2 Gen. 1 umbenannt - ge- 
nauso wie USB 3.1 Gen. 2 in USB 3.2 
Gen. 2. Um die Verwirrung perfekt 
zu machen, heißen die neuen 20 
GBit/s nun USB 3.2 Gen. 2x2. 


Um dem Chaos Herr zu werden, 
hilft es wie erwähnt, auf das Sym- 
bol zu blicken oder die korrekte 
„Speed“-Bezeichnung herauszufin- 


den, etwa „Super Speed +“. 


Bandbreite- 
Überlegungen 

Beruhigend ist dabei zu wissen, dass 
Super Speed 20 Gbps (USB 3.2) mit 
nochmal doppelter 3.1-Geschwin- 
digkeit von 20 GBit/s derzeit nicht 


Mainboard 


Übersicht: Was die 
USB-Symbole bedeuten 


Bis zu zehn Symbolvarianten zeigen auf aktuellen USB-Geräten, was 
der Port kann. Leider halten sich nicht aller Hersteller daran und ver- 
wenden teils eigene „Interpretationen“ der offiziellen Symbole 


Ohne | Ohne 
Power | Displayport 
Delivery 


USB 2.0 
High Speeds 
480 MBit/s 


USB 3.0 (USB 3.1 
Gen 1 oder USB 3.2 
Gen 1) Super Speed 

5 GBit/s 


USB 3.1 Gen 2 od. 
USB 3.2 Gen 2 
Super Speed Plus 
10 GBit/s 


Mit 
Displayport 


Mit Ohne 
Power | Displayport 
Delivery 


Mit 
Displayport 


Thunderbolt 
mit Power Delivery, 
mit Displayport 


FOUT 


Ppi 


5 


Und so sehen die Symbole in „freier Wildbahn“ aus: Der Thunderbolt-Blitz ist noch zweifelsfrei zu interpretieren, beim USB-Symbol in der Mitte übersieht man 


aber schon mal das Pluszeichen. Von Super Speed und Co. liest man zudem gar nichts. Immerhin geben die Farben einen Anhaltspunkt 
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More 


Thunderbolt" 3 Speed 


delivers best USB-C 


More 
Pixels 


More 
Power 


More 


40 Gbps 


e" 


(TT Up to 100w 
€) THunDerBoLT Tan 


Protocols 3) Dispisyrort POS 
EXPRESS 


Thunderbolt 3 kann viel, aber nicht alles: So reicht die Bandbreite in der 
Regel nicht aus, um externe Grafikkarten mit voller Geschwindigkeit zu be- 


feuern 


Der Teufel steckt manchmal im Detail: Der kleine Pfeil symbolisiert zwar 
Thunderbolt 3. Leider benötigt die Samsung-SSD eine ebensolche Gegen- 
buchse und ist nicht mit USB-Schnittstellen kompatibel 


Übersicht: USB- 


Power-Delivery-Profile 


Fünf Profile von zehn bis 100 Watt können in USB gewissermaßen 
eingebettet werden. Um höhere Ströme zu nutzen, müssen zusätzlich 


aktive Kabel verwendet werden 


Profil | Anschlüsse | Span- |Max. | Max. Endgeräte 
nung Strom | Leistung 
1 Standard-Profil, mo- 
Alle 5V 2A 10W bile Geräte, Smart- 
phones, 
2 Alle 5V 2A Tablets, kleine Note- 
18 W books, zukünftige 
USB-C 12 V 1,5A Endgeräte 
3 Alle 5V 2A Notebooks, größere 
36 W S 
USB-C 12V 0,125 Endgeräte 
4 Alle 5V 2A d 
Notebooks, Hubs, 
USB-C 12y JA eon Docking-Stations 
20 V 3A 
5 Alle 5V 2A Work Wa 
orkstations, Hubs, 
USB-C lay 2A ZER Docking-Stations 
20 V 5A 
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unbedingt notwendig ist - zumin- 
dest noch nicht. Aktuelle USB-SSDs 
nutzen gerade mal die 3.0-Band- 
breite von 5 GBit/s aus. Eine San- 
disk Extreme 900 ist und bleibt seit 
vielen Jahren die Ausnahme, indem 
sie Datenraten um die 900 MByte/s 
schafft. 


Die bessere Alternative sind exter- 
ne SSDs, die Thunderbolt 3 nutzen 
und mit PCI-Express-SSDs vergleich- 
bar sind, etwa eine Samsung SSD 
X5. Sie sind auch deutlich schneller 
als die USB-SSDs, haben aber auch 
Nachteile: Sie funktionieren nur 
an Thunderbolt-Buchsen, sind also 
nicht abwärtskompatibel zu USB- 
3.x-Buchsen, die häufiger zu finden 
sind. Außerdem sind sie noch sehr 
teuer, also noch teurer als die ohne- 
hin schon teuren USB-SSDs. 


Der Thunderbolt-Standard basiert 
technisch auf PCI Express. Damit 
steht nun zwar eine externe Ver- 
bindung mit guter Geschwindig- 
keit zur Verfügung, dieser sind aber 
auch Grenzen gesetzt. In der Regel 
ist Thunderbolt 3 mit lediglich vier 
PClIe-Lanes angebunden. Für exter- 
ne Gaming-Grafikkarten zum Bei- 
spiel ist das zu wenig. Den im Ge- 
häuse verbauten Pendants stehen 
16 PCIe-Lanes zur Verfügung, was 
sich je nach Grafikkartenmodell 
und Spiel in circa 10 bis 30 Prozent 


mehr Leistung äußert. 


USB Power Delivery: 

bis zu 100 Watt 

USB hat sich nicht zuletzt deswegen 
durchgesetzt, weil die Stromver- 
sorgung von Anfang an mitgekom- 
men ist. So wurden etwa PS/2 und 
sämtliche seriellen und parallelen 
Schnittstellen abgelöst und alle mit 
dem gleichen Stecker angeschlos- 
sen. Größere Geräte, wie etwa ein 
Drucker, brauchten dennoch eine 
zusätzliche Stromversorgung, da die 
2,5 Watt bei USB 2.0 oder auch die 
4,5 Watt bei USB 3.0 zu wenig sind. 


Die eigenständige 
USB Power Delivery (kurz: USB PD) 
beschreibt insgesamt fünf Profile 
mit 10 bis 100 Watt, die die PC-Pe- 


ripherie mit der jeweils richtigen 


Spezifikation 


Spannung versorgt. Im Gegensatz 
herkömmlichen USB-Verbin- 


dung, die auch in der 3.1-Version 


zur 


noch immer nur 5 V bietet, versorgt 
USB PD Geräte auch mit Spannun- 
gen über 12 V und 20 V. 


Für höhere Ströme und Spannun- 
gen sind aber aktive Kabel notwen- 
dig, die an den Steckern mit elekt- 
ronischen Komponenten versehen 
sind. Am passiven Typ-A-Stecker ge- 
hen maximal 900 Milliampere und 
4,5 Watt vorbei, am passiven Typ-C 
bis zu 3 Ampere und 15 Watt. Ein 
aktiver C-Stecker aber schafft bis zu 
5 Ampere, sodass mit einem aktiven 
Kabel bis zu 25 Watt aus einem Port 
gezogen werden können, ohne USB 
PD zu verwenden. Bei Notebooks 
sollten stets die mitgelieferten Ka- 


bel verwendet werden. 


USB 4 
Wie geht es weiter mit der 
USB-Schnittstelle® Das Wirrwarr 


könnte sich bald auflösen - mit der 
Betonung auf „könnte“; Intel hat 
mittlerweile die Thunderbolt-Pro- 
tokollspezifikation dem USB-IF (Im- 
plementers Forum) kostenlos über- 
lassen, also der für USB zuständigen 
Organisation. Das Wissen daraus 
wird als Basis für USB 4.0 dienen 
- wie die Spezifikation aber genau 
aussehen wird, ist noch offen. Bis 
zum Sommer 2019 soll sie laut USB- 


IF fertig sein. 


USB 4.0 könnte so zumindest the- 
oretisch alle alten Standards ablö- 
sen, der USB-C-Anschluss alle alten 
Steckervarianten ersetzen. Aus An- 
wendersicht wäre das mehr als be- 
güßenswert. Jetzt, wo Thunderbird 
3 ja nichts mehr kostet, steht dem 
Siegeszug hoffentlich nichts mehr 


im Wege. 


erial-ATA oder kurz SATA ist 
Ss. eine aussterbende 
Schnittstelle. Lange Jahre dominier- 
te sie allerdings die Mainboards und 
viele Techniken beziehungsweise 
Fachbegriffe 


noch regelmäßig in Erscheinung. 


treten auch heute 


Grund genug für einen kleinen 


Blick zurück. 


Serial ATA 

Vom Jahr 2001 an brachte Seri- 
al ATA nicht nur deutlich höhere 
Transferraten, sondern auch neue, 
einfacher zu handhabende Kabel. 
In der ersten Variante konnten bei 
einem Takt von 1,5 GHz annähernd 
150 Megabyte nutzbare Daten pro 
Sekunde übertragen werden - seri- 
ell und nicht mehr parallel wie bis 
dato üblich. Für platterbasierte Fest- 
platten reichte die Geschwindigkeit 
der ursprünglichen SATA-Spezifika- 
tion aus, denn damals dachte noch 
niemand an SSDs, die schlicht noch 
nicht erfunden waren. Doch mit 
leistungsfähigen Flash-Laufwerken 
wurden auch immer schnellere Ver- 


sionen von SATA nötig. 


Mit der zweiten Revision SATA 
3 GBit/s, oft auch als SATA II be- 
zeichnet, verdoppelte man die 
Übertragungsrate auf nutzbare 
300 Megabyte pro Sekunde (inkl. 
8b/10b-Kodierung: 3.000 MBit/s) 
und damit auf das Niveau der da- 


mals schnellsten SSDs. 


NCQ und AHCI 

Hinzu kamen außerdem Funktionen 
wie AHCI („Advanced Host Control- 
ler Interface“) und NCQ („Native 
Command Queuing“). AHCI sorgte 
ab etwa 2004 für eine einfachere 
und einheitliche Treiberintegration. 
NCQ ordnet Daten innerhalb der 
Ströme so um, dass diese effizienter 
abgearbeitet werden können (sie- 
he auch Grafik im Artikel „Festplat- 
ten“). Auch SSDs können von NCQ 
profitieren, da der Controller meh- 


rere Zugriffe auf den Inhalt einer 
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Flash-Speicherzelle kombinieren 
kann statt mehrfach die umständ- 
liche Read-Modify-Write-Prozedur 
für jeden Datenblock auszuführen. 
Eine weitere interessante Tech- 
nik ist „Staggered Spinup“ - diese 
Technik erlaubt das verzögerte 
Einschalten der Festplatten. Der 
Hintergrund: Das Anlaufen und Be- 
schleunigen des Festplattenmotors 
sorgt beim Einschalten für eine sehr 
hohe Leistungsaufnahme; werden 
mehrere Festplatten gleichzeitig 
eingeschaltet, kann das zur Überlas- 


tung des Netzteils führen. 


SATA 6 GBit/s 

Die dritte SATA-Generation bietet 
eine maximale Bandbreite von 600 
MByte (nutzbare Bandbreite) oder 
6.000 Megabit pro Sekunde (Band- 
breite inklusive Prüfbits) und kann 
somit Daten doppelt so schnell 
übertragen wie der SATA-3-Gb-Stan- 
dard (3.000 MBit/s). Daher wird die- 
se auch oft „SATA 6 GBit/s“ genannt. 
Theoretisch lassen sich die gleichen 
Kabel weiterhin verwenden. Das 
SATA-Gremium gibt jedoch an, dass 
manche Kabel aus minderwertigem 
Material hergestellt sind und daher 
bereits mit SATA 3 GBit/s an der 
Leistungsgrenze liegen - hier lohnt 
sich ein Blick, wenn ältere Rechner 


Probleme machen. 


Neue Anschlüsse 

Zudem gibt es bei der dritten SA- 
TA-Generation zusätzlich kleinere 
Anschlüsse etwa für Notebooks, 
Netbooks oder DVD-Player. Wäh- 
rend SATA-3-GBit/s-Geräte die Funk- 
tion Native Command Queuing 
(kurz: NCQ) unterstützen, bietet 


Mainboard 


Aktuelle SATA-Geräte basieren in der Regel auf dem SATA-6Gb/s-Standard 

- der höhere Ansprüche an die Kabel stellt. Dennoch sind wenige Probleme 
bekannt, die auf ältere SATA-3Gb/s-Kabel zurückzuführen wären. Mit PCI-Ex- 
press und M.2 hat sich diese Frage ohnehin erledigt (siehe Fließtext) 


Theoretische Bandbreiten 


Theoretische Bandbreite 


Theoretische Bandbreite 


in Megabyte/s in Megabit/s 
USB 2.0 60 MByte/s 480 MBit/s 
USB 3.0 625 MByte/s 5.000 MBit/s 
USB 3.1 1.250 MByte/s 10.000 MBit/s 
USB 3.2 2.500 MByte/s 20.000 MBit/s 
SATA 187,5 MByte/s 1.500 MBit/s 
SATA 3 GBit 375 MByte/s 3.000 MBit/s 
SATA 6 GBit 750 MByte/s 6.000 MBit/s 
SATA Express 2.000 MByte/s 16.000 MBit/s 
Eine PCI-E-Lane 250 MByte/s 2.000 MBit/s* 
Eine PCI-E-2.0-Lane 500 MByte/s 4.000 MBit/s* 


Zwei PCI-E-2.0-Lanes 


1.000 MByte/s 


8.000 MBit/s“ 


Eine PCI-E-3.0-Lane 


985 MB 


e/s 


7.880 MBit/s“ 


Zwei PCI-E-3.0-Lanes 


1.970 MByte/s 


15.760 MBit/s* 


LAN (100 MBit) 12,5 MByte/s 100 MBit/s 

LAN (Gigabit) 125 MByte/s 1.000 MBit/s 
Thunderbolt 1.250 MByte/s 20.000 MBit/s 
Thunderbolt 2 2.500 MByte/s 20.000 MBit/s 
Thunderbolt 3 5.000 MByte/s 40.000 MBit/s 
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SATA Express fand sich zeitweise auf vielen Mainboards, ist mittlerweile 
aber nur noch selten anzutreffen. An einem solchen Anschluss lassen sich 
entweder ein SATA-Express-Laufwerk oder zwei „normale“ SATA-Laufwerke 
betreiben 


M.2-Anschluss mit eingesteckter SSD 


N M.2 auf einem Mainboard 


Der M.2-Anschluss zeichnet sich durch den geringen Platzverbrauch aus. In 
der Mitte sehen Sie eine SSD im Anschluss. Festgehalten wird diese durch 
eine einzelne Schraube am hinteren Ende. 
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SATA 6 GBit/s zusätzlich NCQ Stre- 
aming. Damit soll der Transfer von 
Audio- und Video-Dateien verbes- 


sert werden. 


Stromsparfunktionen 


Neu waren auch mehrere 
Stromsparfunktionen. So musste 
die Festplatte bis dato auf Erlaubnis 
des Hosts warten, bevor sie in den 
Schlafzustand wechseln konnte. 
Bei SATA 6 GBit/s können sowohl 
Host als auch Laufwerk den Schlum- 
mer-Modus starten, ohne sich ab- 
stimmen zu müssen. Das Laufwerk 
muss auch nicht mehr vorher inden 


aktiven Modus gelangen. 


SATA-Bandbreite 
ausgeschöpft 
Ab etwa 2013 

SSD-Speicher bereits die volle Band- 
breite von SATA 6 GBit/s aus - die 


Entwicklung hatte eine Dimension 


nutzten viele 


angenommen, welche die SATA-Ent- 
wickler so nicht vorhergesehen 
hatten. Die Technik-Roadmap des 
Konsortiums wurde buchstäblich 
überholt. Anfang 2014 mussten die 
Hersteller einsehen, dass die Ent- 
wicklung eines neuen SATA-Stan- 
dards mit 12 GBit/s - bisher wurde 
die Geschwindigkeit der vorheri- 
gen Generation immer verdoppelt 
- bis zu zwei Jahre lang gedauert 
hätte. Das Ergebnis wäre zu spät 


marktreif gewesen. 


Man entschied sich daher für eine 
preiswertere und energiesparen- 
de, gewissermaßen improvisierte 
Alternative. Statt am alten Standard 
festzuhalten, bediente sich das Ent- 
wicklerkonsortium des etablierten 
und ausgereiften PCI-Express-3.0- 
Standards, welcher pro Lane auf ein 
GB/s kommt (siehe PCI-Express-Ar- 
tikel). Heraus kam eine Mischform, 
die sowohl mit SATA- als auch mit 
PCI-Express-Anschlüssen funktio- 
niert und vom Konsortium entspre- 
chend vermischt „SATA Express“ 


genannt wurde. 


SATA Express 


SATA Express verwendet zwei PCI- 


Express-2.0-Lanes und erreicht 
somit annähernd ein GByte/s. Zur 
physischen Verbindung werden die 
bekannten SATA-Buchsen verwen- 
det, jeder SATA-Express-Anschluss 
besitzt zwei davon - zusätzlich aber 


noch eine dritte! 


SATA-Laufwerke schließt 


man einfach an einen der beiden 


Ältere 


Ports an - so ist die Abwärtskompa- 
tibilitätgewährleistet. Die effektive 
Geschwindigkeit liegt dann bei den 
für konventionelles SATA 6 GBit/s 
maximal spezifizierten 600 MBy- 
te/s. 


SATA-Express-Laufwerke 
belegen nicht nur die beiden „her- 
SATA-Anschlüsse, 


sondern zusätzlich auch noch die 


dagegen 
kömmlichen‘“ 


dritte Buchse. Ein einzelnes Lauf- 
werk bringt somit eine ganze Ste- 


ckerleiste mit. 


Neue Lösungen 
Nimmt 
Ein-Controller-SSDs (ca. 1.500 MBy- 
te/s) zum Zeitpunkt der Marktein- 
führung als Maßstab, war SATA Ex- 


press bereits damals veraltet. Aber 


man die schnellsten 


auch mit zeitgemäßen Chipsätzen, 
bei denen SATA Express mit PCI 3.0 
angebunden wurde, verdoppelte 
sich die Bandbreite auf „nur“ Knapp 
2.000 MByte/s. Das war für eine In- 
tel SSD 750 und eine Samsung SSD 


950 Pro immer noch zu langsam. 


Warum aber überhaupt SATA-Kom- 
ponenten nutzen, wenn der Trans- 
port der Daten ohnehin über 
PCI-Express erfolgt? Schon als es 
noch keine nativen SSD-Controller 
für PCIE gab, nutzten viele Herstel- 
ler die Geschwindigkeit des Erwei- 
terungsslots, um mit RAID-0-ver- 
schalteten SATA-SSDs 


Platine das SATA-Limit zu umgehen. 


auf einer 


Der Vorteil von PCI-E ist, dass einer 


SSD über diesen Weg die in der Pra- 


xis bestmögliche Anbindung zur 


Verfügung steht. 


M.2 als PCI- 
Express-Vermittler 

So kam die Lösung des Problems 
erst, als PCI-Express ohne SATA-Alt- 
lasten für die Verbindung von SSDs 
genutzt wurde. Die bis heute popu- 
lärste Umsetzung stellt dabei der 
M.2-Formfaktor dar. 


Eigentlich handelt es sich bei M.2 
(ehemals NGFF, „Next Generation 
Form Factor“) nur um ein spezielles 
Steckformat, das mit verschiede- 
nen Standards arbeitet: Es erlaubt 
den Einsatz von Steckkärtchen, die 
meist 22 mm breit und 42, 60, 80 
oder 110 mm lang sind (siehe Kas- 
ten rechts unten) - in erster Linie 
für den Einsatz in Notebooks. Doch 
mittlerweile ist die Schnittstelle 
auch bei Mainboards so beliebt, 
dass kaum noch ein neues Modell 
ohne auskommt. Der Grund dafür 
ist wohl, dass sich M.2 günstig und 
Platz sparend unterbringen lässt - 
und natürlich, dass es bereits eine 
Reihe von M.2-Hardware gibt. Im 
Gegensatz zu normalen PCI-Ex- 
press-Karten steht eine M.2-Erwei- 
terungskarte meist nicht senkrecht 
zum Mainboard, sondern liegt eng 
an der Platine an. Hier merkt man 
die Ursprünge des Formfaktors bei 
den Ultrabooks 


Dass PCI-Express im M.2-Format 
die alte SATA-Schnittstelle ablösen 
wird, daran gibt es mittlerweile 
wenig Zweifel; bis zu 4.000 MB/s 
600 MByte/s 


Maximalleistung sind ein großer 


statt theoretische 
Sprung nach vorn. Ein weiterer Vor- 
teil ist, dass sich auch M.2-SSDs per 
Adapter sehr einfach zu normalen 
PCIE-Steckkarten umfunktionieren 
lassen. So besteht auch für ältere 
Systeme, die weder einen SATA-Ex- 
press- noch einen M.2-Anschluss 
aufweisen, die Möglichkeit, schnel- 


le SSDs betreiben zu können. 


M.2-Vielfalt 

Aber M.2 ist mehr als nur eine High- 
End-SSD-Schnittstelle, M.2-SSDs 
sind nur die bekannteste Anwen- 
dung des Formfaktors. Möglich 
sind auch WLAN- und andere Er- 
weiterungsmodule sowie gänzlich 
andere Schnittstellen wie USB 2.0, 
das vom Raspberry Pi oder Ardui- 
no bekannte I2C und nicht zuletzt 
„klassisches“ SATA. Was davon in 
einem M.2-Slot betrieben werden 
kann, hängt auch vom Host ab. Die 
meisten modernen Mainboards un- 
terstützen mit M.2 auch SATA, die 
Standard-Anbindung erfolgt aber 
per PCI-Express. 


Kerben dechiffriert 

Über die genaue Funktionalität ge- 
ben Anzahl und Position der Ker- 
ben Aufschluss: WLAN-Module sind 
für Slots mit sogenannter E-Kodie- 
rung gedacht, SSDs setzen dagegen 
auf den sogenannten M-Key (siehe 
Übersicht rechts oben). 


Mechanisch werden diese Kodie- 
rungen durch eine Kerbe in der 
Kontaktleiste der SSD und eine kor- 
respondierende Nase im M.2-Steck- 
platz gekennzeichnet. Die Folge: 
M.2-SSDs (M-Kerbe) passen nicht in 
M.2-Steckplätze, die für WLAN-Mo- 
dule gedacht sind (E-Nase) - und 
umgekehrt. Als dritte M.2-Kodie- 
rung (von insgesamt 12 spezifizier- 
ten) findet sich auf einigen älteren 
Modellen übrigens noch der B-Key. 
Die Geschwindigkeit dieser alten 
Implementationen lässt sich nur 
mit WLAN-Modulen sinnvoll nut- 
zen, die auch meist sowohl über 
eine E-, wie auch eine B-Kerbe ver- 


fügen. 


Obwohl MI wohl die Laut 
werks-Schnittstelle der Zukunft ist, 
werden SATA 6 GBit/s und SATA Ex- 
press noch eine ganze Zeit lang auf 
dem Markt präsent sein - vor allem 
bei externen SSDs und Festplatten 


sind diese Varianten populär. 


Mainboard 


Was die Kerben 
über M.2 verraten 


Theoretische Bandbreite Theoretische Bandbreite 
in Megabyte/s in Megabit/s 
A 8-15 PCI-Express x2, USB 2.0, DC und DP x4 
B* 12-19 PCI-Express x2, SATA, USB 2.0 und 3.0, 
Audio, PCM, IUM, SSIC und GC 
CG 16-23 Reserviert für zukünftigen Gebrauch 
20-27 Reserviert für zukünftigen Gebrauch 
E 24-31 PCI-Express x2, USB 2.0, DC SDIO, 
UART und PCM 
F 28-35 Future Memory Interface (FMI) 
39-46 Allgemein (In der M.2-Spezifikation 
nicht vorgesehen) 
H 43-50 Reserviert für zukünftigen Gebrauch 
J 47-54 Reserviert für zukünftigen Gebrauch 
K 51-58 Reserviert für zukünftigen Gebrauch 
L 55-62 Reserviert für zukünftigen Gebrauch 
M* 59-66 PCI-Express x4 und SATA 


*für SSDs in Gebrauch befindliche Kerbungsarten 


Wie groß sind M.2-SSDs? 


Bei bisherigen Laufwerken war man entweder auf den 5,25 Zoll-, 3,5 
Zoll- oder 2,5-Zoll-Formfaktor begrenzt. M.2 ist wesentlich flexibler. 
Eine M.2-Platine kann 16, 26, 30, 38, 42,60, 80, oder 110 mm lang sein. 
Die Breite darf 12, 16, 22 oder 30 mm betragen. Die SSD-Hersteller 
beschränken sich aktuell aber auf SSDs in einem der abgebildeten 


Formate. 
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Bild: Intel 


Mainboard 


Speicher ist vergleichsweise simpel aufgebaut und wird wie die meisten 
Chips auf Wafer geätzt. Hier einer der ersten SRAM-Chips von Intel (Intel 
1101). Die Ausbeute am Anfang: Zwei (statt wie angepeilt 20) Dies pro Wafer 


Wie DRAM Daten speichert 


Eine DRAM-Speicherzelle benötigt lediglich einen Transistor und einen 
Kondensator, an eine Wordline können theoretisch beliebig viele Zellen 
angeschlossen werden. Anders als eine SRAM-Speicherzelle verfügt 
eine DRAM-Zelle lediglich über einen Ausgang und arbeitet zudem 
deutlich langsamer. 


wordline 


IL. Transistor TI Transistor 


Kondensator Kondensator 


bitline bitline 
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So funktioniert ein Main- 
board: Speicher (RAM 


D: Arbeitsspeicher ist wich- 
tiger Bestandteil eines jeden 


PCs , in vielen Fällen aber auch des- 
sen größter Bremsklotz. Warum ist 


das so? 


Grundbegriffe 

Der im Englischen für Arbeitsspei- 
cher verwendete Begriff RAM steht 
für „Random Access Memory“. Mit 
diesem Namen wird das Prinzip 
hervorgehoben, dass jede beliebige, 
also zufällig gewählte Speicherzelle 
in exakt gleicher Zeit angesprochen 
und ausgelesen werden kann. Um- 
gangssprachlich wird zwar häufig 
zwischen RAM und ROM (,„Read-on- 
ly memory“, nur lesbarer Speicher) 
unterschieden, technisch handelt 
es sich bei den meisten ROM jedoch 


genauso um RAM. 


Das gilt auch für Flash-Speicher, wie 
er in USB-Sticks oder SSDs zum Ein- 
satz kommt: Auch hier kann jeder 
beliebige Block in konstanter Zeit 


ausgelesen werden. 


Speicher-Probleme 

Das Problem, Daten zu speichern, 
ist schon knapp 100 Jahre alt. Be- 
reits in den 1920er-Jahren machten 
sich Wissenschaftler Gedanken dar- 
über, wie Werte elektronisch „fest- 
gehalten“ werden können. Nach 
den ersten Trommelspeichern in 
den 1930er-Jahren, einer Art Vorläu- 
fer der Festplatte, dauerte es aber 
noch bis 1946, ehe Daten auch in 
Speicherröhren abgelegt werden 
konnten. Diese waren jedoch sehr 
fehleranfällig und wurden bald 
durch Kernspeicher ersetzt, die im- 
merhin schon einige Kilobyte spei- 


chern konnten. 


„Richtigen“ Speicher, der die heute 
verwendeten Prinzipien aufgreift, 
gab es aber erst nach der Erfindung 
Metalloxid-Halbleiter-Feldef- 
fekttransistors (MOSFET) in den 
1960er-Jahren. 


des 


Die Geburt des RAM 

Der Erfinder Robert Dennard hat- 
te den Einfall für DRAM 1966 auf 
seiner Wohnzimmercouch und rief 
seinen Chef bei IBM noch am glei- 
chen Tag um 22 Uhr an. „Ich wuss- 
te, dass es eine große Sache ist, aber 
ich wusste nicht, dass sie mal einen 
so großen Einfluss haben würde 
wie heute“, bekannte der Ingenieur 
einmal Jahrzehnte später. Veröffent- 
licht wurde das Patent 1968 - die 
moderne Arbeitsspeicherzelle war 


geboren. 


Das von zwei ehemaligen Mitarbei- 
tern von Fairchild Semiconductor 
gegründete Unternehmen Intel 
brachte im Jahr darauf den ersten 
Speicherchip mit MOSFETs und 
Silizium-Gates auf den Markt, den 
Intel 1101 mit einer Kapazität von 
1 Kilobit. Dabei handelte es sich 
um SRAM, das „S“ steht hierbei für 
„static“. Dieser Speicher zeichnet 
sich dadurch aus, dass sein Inhalt er- 
halten bleibt, solange Spannung an- 


liegt (mehr dazu im Prozessor-Teil). 


Flüchtige Speicher 
Arbeitsspeicher ist allerdings aus 
DRAM-Speicherzellen 


Namensgebend für diesen „dyna- 


aufgebaut. 


mischen“ Speichertyp ist die Eigen- 
schaft, dass die gespeicherte Infor- 
mation flüchtig ist. Das liegt daran, 
dass bei DRAM ein Bit nicht über 
ein aus sechs Transistoren beste- 
hendes Flipflop gespeichert wird 
(siehe Prozessor-Teil), sondern 
durch die Kombination aus einem 
Kondensator (Speicher) und einem 


Transistor (zur Ansteuerung). 


Wird die Speicherzelle adressiert 


und Strom angelegt, schaltet der 


Transistor. Fließt die Ladung des 
Kondensators ab, lässt sich das als 
logische 1 interpretieren, das Aus- 
bleiben entspricht einer 0. Über 
den gleichen Transistor lässt sich 
die Ladung auch in den Kondensa- 


tor einspeisen. 


Die Flüchtigkeit der Informatio- 
nen ist dadurch bedingt, dass die 
Ladung auch ohne Schaltvorgang 
aufgrund von unerwünschten, bei 
höheren Temperaturen stärker aus- 
abfließt 


und die Ladung des Kondensators 


geprägten Leckströmen 


` 


Speicherchips 


Je nach Kapazität des Speichermoduls 
enthält es unterschiedlich viele Spei- 
cherchips. Die meisten Module mit hoher 
Kapazität verfügen über Chips auf Vorder- 


und Rückseite. 


YN 


daher regelmäßig aufgefrischt wer- 
den muss. Bei modernen Speicher- 
modulen ist eine Auffrischung aller 


Speicherzellen in Intervallen von 


wenigen ms vorgesehen. 


Gibt es keine Auffrischung, ver- 
schwindet über kurz oder lang die 
Ladung und damit auch die Infor- 
mation. Ein Vorteil von DRAM ist 
dagegen die hohe Speicherdichte, 
da die benötigte Fläche pro Bit um 
ein Vielfaches geringer ist als bei 


vergleichbaren Speicherlösungen. 


Register 


8856HDAR-ITDG SI 
512MB 64x72 PC3200 CL2.5 DOR R 


HIT INTE A AD 


Warranty Void W Removed 


Auch die Anzahl der Kontakte variiert - 168 
bei SDR-SDRAM, 184 bei DDR-SDRAM, 
240 bei DDR2- und DDR3-SDRAM, 288 

bei DDR4-SDRAM. SO-DIMM-Module, die 
speziell für Laptops entwickelt wurden, 
verfügen über 144 (SDR), 200 (DDR, DDR2), 
204 (DDR3) oder 260 (DDR4) Kontakte. 


Diese zusätzlichen Chips finden 
sich ausschließlich bei Registered- 
Modulen (Server). Sie entlasten den 
Speichercontroller und ermöglichen 
höhere Kapazitäten. 


Da die Spannung von SDR, 
DDR-, DDR2-, DDR3- und 
DDR4-Modulen unterschiedlich 
ist, verfügen sie über unter- 
schiedliche Kerben. Dadurch 
wird sichergestellt, dass sie nur 
in den richtigen Slot passen. 


Fe 


FU 


duls besteht wie erwähnt aus einem 
Kondensator und einem Transistor. 
Der Kondensator übernimmt das 
eigentliche Speichern der Infor- 
mation, der Transistor ist für Lese- 
und Schreibzugriffe zuständig. Jede 
Speicherzelle kann somit ein Bit 


speichern. 


Für die Ein- und Ausgabe-Operati- 
onen verfügt jede Zelle zusätzlich 
über eine ‚Wordline“ und eine „Bit- 


line“. Die ‚Wordline“ gibt den Be- 


Mainboard 


fehl zur Schaltung an den Transis- 
tor, wodurch die Information über 
den Zustand des Kondensators (1 
oder 0) an die „Bitline“ weitergelei- 
tet wird. An eine „Wordline“ können 
theoretisch beliebig viele Speicher- 
zellen angeschlossen werden. Eine 
derart verbundene Sammlung von 
Speicherzellen bezeichnet man als 


„Page“ oder auch Speicherzeile. 


Speicherfelder 

Eine Speicherzeile ist bei aktuellen 
Systemen meist zwischen 512 und 
2.048 Zellen „lang“. Die Anzahl der 


Die Kerben an der Seite fixieren die Module in 
den Speichersockeln und verhindern ein unge- 
wolltes Herausrutschen. SO-DIMM-Steckplätze 
verfügen aufgrund der höheren Anforderungen 


zusätzlich über Metallsicherungen. 


: Legacy Electronies inc 
www.legacyelectronics.com 
PHi949j498-9600 FAX(949)488-9611 


Rank 


aus 4, 8 oder 16 
Chips. 


Eine logische Spei- 
chereinheit wird als 
„Rank“ bezeichnet. 
Sie muss immer 64 Bit 
breit sein und besteht 


ECC-Module 
verfügen je Byte 
über ein Paritäts- 
bit und somit bei 
gleicher Kapazität 
über zusätzliche 
Speicherchips. 
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Bild: http://blog.smu.edu 


Mainboard 


Robert Dennard erhielt für die Erfindung von DRAM im Jahr 1966 zahlreiche 
Auszeichnungen 


Dennards Erfindung führte unter anderem zur Gründung von Intel, wo man 


bald die ersten DRAM-Chips produzierte (hier der 1101, dessen Die-Shot auf 
der vorhergehenden Doppelseite zu sehen ist 
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Zeilen wiederum variiert - sie liegt 
bei den meisten aktuellen Chips in 
einer Größenordnung von 4.096 bis 
16.384. 


Man kann sich also einen Speicher- 
chip als Matrix aus - beispielhaft - 
16.384 Zeilen und 1.024 Spalten vor- 
stellen; in der Summe könnte man 
in einem solchen Speicherfeld 16 
Megabit oder 2 Megabyte speichern 
(siehe Abbildung auf der folgenden 
Dopgpelseite; mittlerweile sind die 
Module deutlich komplexer, der 
Einfachheit halber wählen wir aber 


dieses ältere Modul als Beispiel). 


Byteweiser Zugriff 

Nun arbeiten x86-Prozessoren aber 
nicht mit einzelnen Bits, sondern 
lesen Daten immer byteweise aus. 
Intern ist ein Speicherfeld daher so 
organisiert, dass der Zugriff auf ei- 
nen Punkt in der Matrix nicht ein, 
sondern gleich acht Bits zurücklie- 
fert. Vereinfacht kann man sich vor- 
stellen, dass jedes Speicherfeld acht- 
mal existiert. Wir bilden dies in der 
Grafik dadurch ab, dass unser Spei- 
cherfeld achtmal eingezeichnet ist. 
Die Page-Größe läge in diesem Fall 
daher auch bei 8 KiBit. Zusammen 
verfügen die acht Speicherfelder 
über 134.217.728 einzelne Zellen 
(16.384 Zeilen x 1.024 Spalten x 8 
Bits). Sie sind mit dieser Organisa- 
tion in der Lage, 128 Megabit oder 
16 Megabyte an Informationen auf- 


zunehmen. 


Speicherbänke 

Ein solches Konglomerat aus Spei- 
cherfeldern nennt man „Bank“. Da- 
mit möglichst viele Daten parallel 
ausgelesen werden können (ein ein- 
zelner Zugriff dauert vergleichswei- 
se lange, dazu gleich mehr), stecken 
in jedem Speicherchip mehrere 
Speicherbänke. Meist sind es eben- 


falls genau acht. 


Das Besondere daran ist, dass sich 


alle Bänke unabhängig voneinander 


ansprechen lassen - so muss nicht 
jedesmal gewartet werden, bis ein 
langwieriger Speichervorgang ab- 


schlossen ist. 


Die Kapazität eines solchen Chips 
mit acht Bänken betrüge nun schon 
1.024 Megabit oder 128 Megabyte. 
Weitere Steigerungen lassen sich 
ab einem gewissen Punkt nur noch 
mit dem Fertigungsverfahren errei- 
chen, da die Chipgröße nicht belie- 
big wachsen kann. Mehr Kapazität 
erhält man aber vergleichsweise 
einfach durch die Kombination 


mehrerer Speicherchips. 


Speicher-,„Chips“ 

und „Ranks“ 

Um eine höhere Flexibilität bei der 
Fertigung und eine noch größere 
Parallelität zu erreichen, werden 
schließ- 


lich zu einem „Rank“ zusammen- 


mehrere Speicherchips 
geschlossen. Man kann sich einen 
Rank in etwa als unabhängiges 
Speichermodul auf einem Riegel 


vorstellen. 


Ein aktueller Speicherriegel beher- 
bergt typischerweise 8 oder 16 ein- 
zelne Speicherchips. Erneut wird 
so die Gesamtkapazität gesteigert, 
in unserem Beispiel auf nunmehr 
16.384 Megabit oder 2.048 Mega- 
byte oder 2 Gigabyte, verteilt auf 16 
Chips, je 8 auf der Vorder- und 8 auf 


der Rückseite des Moduls. 


Bitbreiten 

Dabei ist es wichtig, dass die aggre- 
gierte Bandbreite einer Speicher- 
einheit zu der Busbreite des PCs 
passt - bei aktuellen PCs sind dies 
seit SDRAM-Einführung immer 64 
Bit. Jeder Rank muss daher 64-bittig 
angebunden sein, und das sorgt oft 


für weitere Verwirrung. 


Es hängt nämlich von der Zahl und 
Art der Speicherchips ab, wie der 
Speicherhersteller seine Ranks auf 


einem Modul anordnet. Ein paar 


Beispiele sollen das illustrieren: Das 
rechts oben auf dieser Seite abgebil- 
dete Speichermodul verfügt über 
Chips, deren Bänke intern acht 
Felder haben (Vorsicht: Nicht ver- 
wechseln mit der Zahl der Bänke, 
die ebenfalls bei acht liegt). Es sind 
daher acht solcher Chips nötig, um 
auf 64 Bit zu kommen und einen 
Rank zu füllen. Die Zahl der Felder 
wird manchmal auch als Breite oder 


Länge eines Chips bezeichnet. 


Interne Organisation 

Es gibt aber auch Speicherchips, de- 
ren Felder nur vier Bits gleichzeitig 
liefern - hier wären dann 16 Chips 
nötig, um auf die 64 Bit pro Takt zu 
kommen. Und damit nicht genug: 
Auch Speicherfelder mit intern 16 
Matrizen sind möglich - es genügen 
dann vier Chips, um einen Rank zu 
bilden. 
Mittlerweile sind auch schon 
Quad-Rank-Speichermodule ver- 
fügbar; diese müssen immer mit 
x4-Chips zusammengestellt sein, 
da sonst mehr als 16 Chips auf dem 
Modul untergebracht werden müss- 
ten. Das ist zwar theoretisch mög- 
lich, wird im Consumer-Bereich 


aber nicht gemacht. 


Packungsdichte 

Doch warum ist das überhaupt 
wichtig? Der Grund liegt in den 
physikalischen Gegebenheiten, den 
so genannten kapazitiven Lasten. 
Ein Modul mit geringer Feldbreite 
und vielen Chips verursacht eine 
höhere kapazitive Last für die Spei- 
cher-Verbindung, was das System 
anfälliger macht für Signalrauschen. 
Das hat zur Folge, dass unter Um- 
ständen die Taktfrequenz reduziert 
oder die Latenzzeiten verlängert 
werden müssen, um den Speicher 
noch zuverlässig auslesen zu kön- 
nen. 


Wer mehr als ein Modul je Spei- 


cher-Kanal verbauen will, ist hier 


mit single-ranked Modulen immer 
besser dran, die allerdings in der Re- 
gel bei gleicher Größe und gleichen 
Timings teurer sind als double-si- 
ded Module. Ausnahmen bestätigen 
aber die Regel: So profitieren einige 
Prozessoren von Dual-Rank-Modu- 
len; der Effekt beruht darauf, dass 
Dual-Rank-Technik Rank-Interlea- 


ving ermöglicht. 


Single vs. Double sided 
Oft liest man bei der Produktbe- 
schreibung eines Speichers die 
Angaben „double-sided“ oder „sing- 
le-sided“. Entgegen der landläufigen 
Meinung haben diese Bezeichnun- 
gen nichts mit den „Ranks“ zu tun. 
Hier geht es einzig und alleine da- 
rum, ob Chips nur auf einer Seite 
oder auf beiden angebracht sind 
- eine Angabe, die den meisten mit 
dem Wissen um die Rank-Struktur 
egal sein dürfte. Es gibt demnach 
Double-Rank-Module, die nur auf ei- 
ner Modulseite mit Chips bestückt 
sind und Single-Rank-Module, die 
beidseitig bestückt sind. 


Lese- und Schreib- 
zugriffe 

Die Organisationsstruktur des Ar- 
beitsspeicher ist schon eine Wissen- 
schaft für sich ... Aber wie kommen 
die Daten nun vom Speicher in den 


Prozessor? 


Grundsätzlich ist ein Lese-/Schreib- 
zugriff in drei Phasen unterteilt: 
Vorbereitung, Ausführung des ei- 
gentlichen Lese-/Schreibvorgangs 
in einer Speicherzeile und Nachbe- 


reitung. 


Während der Vorbereitung wer- 
den zwei Schritte durchgeführt: 
Zunächst ermittelt der Adressde- 
koder aus der ihm übergebenen 
Zeilenadresse die korrekte Spei- 
cherzeile. Die Länge dieser Adres- 
se hängt dabei von der Anzahl der 
in der Speicherbank vorhandenen 


Speicherzeilen ab - bei einer 14 Bit 


Mainboard 


Yapata 


AD4U240038017-B 
DDR4 grill 86X8 U -DIMM 
1.2V 10400268 


Zei? 


9J 


Warranty void 
if removed 


d 


Die Organisationsstruktur ist häufig auf einem Aufkleber vermerkt: Dieser 
Riegel arbeitet mit Chips, die jeweils acht Gigabit aufnehmen können und 
achtbittig angebunden sind 


Derselbe Riegel in der Gesamtansicht: Es handelt sich um einen einseitig 
bestückten („Single sided“) Riegel mit einem „Rank“ (acht Chips sind mit 
jeweils acht Bit an den Controller angebunden) 


Ce: 
OT 


Wie Sie RAM-Werte ermitteln 


Wenn der Speicher schon verbaut ist, helfen Tools wie der „Thaiphoon 


Burner“ weiter. 


Klicken Sie im Hauptmenü die Schaltfläche „Read“ an und wählen Sie 
das gewünschte Modul aus. Wenige Sekunden später erhalten Sie die 
Informationen über den Hersteller, die Produktnummer, Revision und 
Strukturbreite. Die Software liefert Ihnen unter anderem Informationen zu 


© dem Hersteller der 
verbauten Spei- 
cherchips 


(2) der Produktnum- 
mer der Bausteine 
(Tipp: Via On- 
line-Suche finden 
Sie bei Bedarf das 
Datenblatt!) 


© der Chip-Revision 
und der Struktur- 
größe und 


© der Anzahl der 
Ranks. 


MANUFACTURER MANUFACTURER 

G.Skill Hynix 

SERIES PART NUMBER 

Trident Z RGB H5AN8G8NAFR-TFC 

PART NUMBER PACKAGE 

F4-3200C16-8GTZR Standard Monolithic 78-ball FBGA 
SERIAL NUMBER DIE DENSITY / COUNT 
00000000h 8 Gb A-die (21 nm) / 1 die 

JEDEC DIMM LABEL COMPOSITION 

8GB 1Rx8 PC4-2133-UA1-11 1024M x8 (64M x8 x 16 banks) 
ARCHITECTURE CLOCK FREQUENCY 

DDR4 SDRAM UDIMM 1067 MHz (0,938 ns) 

SPEED GRADE MINIMUM TIMING DELAYS 
DDR4-2133 15-15-15-36-50 

CAPACITY READ LATENCIES SUPPORTED 

8 GB (8 components) 16T, 15T, 14T, 13T, 12T, 11T, 10T 
ORGANIZATION SUPPLY VOLTAGE 

1024M x64 (1 rank) 1,20 V 

REGISTER MODEL XMP CERTIFIED 

NIA 1600 MHz 16-18-18-38-56 / 1,35 V 
MANUFACTURING DATE XMP EXTREME 

Undefined Not programmed 
MANUFACTURING LOCATION SPD REVISION 

Taipei, Taiwan 1.1/ September 2015 

REVISION / RAW CARD XMP REVISION 

0000h / A1 (8 layers) 2.0 / December 2013 
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Die wichtigsten Optionen 
auf einen Blick 


Die „Hauptlatenzen“ CAS, RCD, RP und RAS sind in der Regel über 
das UEFI-Setup einsehbar und können dort auch (in Grenzen) geändert 
werden. Nachfolgend eine Übersicht über die gängigsten Parameter: 


Overclocking\Advanced DRAM Configuration 


Main Timing Configuration 
Command Rate 

tCL 

tRCD 


un Jun Jun 


tRAS 
tRFC 


in 


N | |= ia | |N 


Gel 
DO 


Sub Timing Configuration 
Turn Around Timing Configuration 
Advanced Timing Configuration 


Latency Timing Configuration tRTL/tIOL 


I CAS Latency (CL) 
Wartezeit nach einem Spaltenzugriff bis zum Burst 


I RAS to CAS Delay (tRCD) 
Wartezeit beim Umschalten von Zeilen- auf Spaltenzugriff 


I RAS to Precharge (tRP) 
Wartezeit beim Anlegen der Referenzspannung auf eine Zeile 


I Active to Precharge (tRAS) 
Wartezeit vor dem Zurückschreiben einer Zeile in den Speicher 


I Fast RW Turn around 
Wartezeit zwischen Lese- und Schreibvorgang 


I DRAM Command Rate (CMD) 
Wartezeit bei der Auswahl der korrekten Speicherchips 


I Bank-Interleaving 
Wechselseitiger Zugriff auf die internen Bänke eines Speicherchips 


) RP-RAS-RÍ 4-1 -19 (17) 
Target IS-KLD-RP-RAS-R = 8-19 (1T) 
Memory Timings [Manual] 

CAS Latency [3] 
tRCD [2] 
tRP [2] 


tRAS [8] 
tRC [19] 
Address Mode [1T] 


SLI Broadcast Aperture Window 
Primary Graphics Adapter 
Memory Remap Feature 


[Enabled] 
[PCIE ] 
[Disabled] 
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langen Zeilenadresse können 16.384 
unterschiedliche Zeilen adressiert 
werden. Anschließend wird die be- 
nötigte Speicherzeile aktiviert, in- 
dem zunächst die im Ruhezustand 
an der „Bitline“ anliegende Span- 
nung gekappt und anschließend an 
die ‚„Wordline“ Spannung angelegt 


wird. 


Im zweiten Schritt wird nun der ei- 
gentliche Lese- oder Schreibzugriff 
auf die Speicherzeile durchgeführt. 
Bei einem Lesezugriff wird zu- 
nächst die Spaltenadresse ermittelt 
und die benötigten „Bitlines“ über 
einen Leseverstärker, der aufgrund 
der Länge der Leitungen notwendig 
ist, mit der Datenleitung des Spei- 
cherchips verbunden. Diese Daten 
werden dann mit dem nächsten 


Taktsignal ausgegeben. 


Schreibvorgänge 

Ein Schreibvorgang verläuft ähnlich. 
Zunächst wird die Spaltenadresse 
vom Spaltendekoder entschlüsselt 
und die benötigten Speicherzellen 
mit der Datenleitung verbunden. 
Die zu schreibenden Informatio- 
nen laufen nun durch den Lese- 
verstärker und setzen die Bits in 
den korrespondierenden Speicher- 


zellen. 


Im Nachgang an einen Lese-/ 
Schreibzugriff muss die Speicher- 
zeile wieder deaktiviert werden. 
Hierfür wird die „Wordline“ wieder 
von der anliegenden Spannung ge- 
trennt, wodurch die Transistoren 
in den jeweiligen Speicherzellen 
dieser Speicherzeile die Kondensa- 
toren der Speicherzellen von den 
Bitleitungen abkoppeln. Zuletzt 
werden die „Bitlines“ wieder mit 
Spannung versorgt und nehmen ih- 


ren Ursprungszustand an. 


Auffrischung 

Wie bereits erwähnt unterscheidet 
sich dynamisches RAM von stati- 
schem RAM dadurch, dass die Da- 


ten flüchtig sind und regelmäßig 
aufgefrischt werden müssen. Diese 
Wiederauffrischung führen die pri- 
mären Leseverstärker in definierten 
Abständen (meist 32 oder 64 Milli- 


sekunden) durch. 


Dabei macht man sich die Tatsache 
zunutze, dass die Daten bei jedem 
Schreibvorgang die Leseverstärker 
durchlaufen und erst dann in die 
Speicherzellen geschrieben wer- 
den. Die Leseverstärker sind mit 
T4-SRAM, also 1-Bit-Datenspeicher 
als Flipflop realisiert, mit vier Tran- 
sistoren ausgestattet und somit in 
der Lage, jeden beliebigen Zustand 
so lange zu halten, wie Spannung 
anliegt. Der Refresh erfolgt also 
regelmäßig aus diesen „Latch“ ge- 
nannten Registern, wobei hier der 
komplette Schreibzyklus, abgese- 
hen von der Bindung der „Bitline“ 
an die Datenleitungen, durchlaufen 


wird. 


Wartezeiten 

Aufgrund dieses hochkomplexen 
Vorgangs beim Zugriff auf Speicher- 
zeilen und -zellen müssen zwischen 
den Schritten definierte Pausen ein- 
gelegt werden. Diese Wartezyklen 
werden als Latenzen bezeichnet 
und vom Speichercontroller festge- 
legt. Der Wert gibt die Taktzyklen 
an, die für bestimmte Aktionen ge- 
wartet werden muss. Da es sich um 
eine Zeiteinheit handelt, werden 
die Latenzen mit tXYZ bezeichnet, 
wobei XYZ die jeweils spezifische 


Latenz definiert. 


In der Reihenfolge eines Lesezu- 
griffs sind folgende Latenzen rele- 
vant: Zunächst bestimmt die tRP 
die „RAS precharge“, also die Anzahl 
der Taktzyklen, die vergehen müs- 
sen, bevor in einem Speicherchip 
eine spezielle Zeile adressiert wer- 


den kann. 


Die tRAS („Row Access Strobe“) be- 
stimmt die Anzahl der Taktzyklen, 


Mainboard 


Wie Daten aus einem Speicherchip gelesen 
werden 


Im folgenden Schaubild erklären wir den grundsätzlichen Ablauf eines Lesezugriffs auf ein Speicherfeld. Die Darstellung wurde etwas vereinfacht; aktuell 
verwendete Speichermodule sind komplexer und bieten höhere Kapazitäten. 


DRAM-Speicherfeld* 


Adressierung 

Über die „Chip-Select“- (CS) 
und „Bank-Address“-Pins (BA) 
werden der Chip und die Bank 
mit der gesuchten Speicherzelle 
ausgewählt 


© Zeilenadresse 
Der Speichercontroller übergibt 
die Zeilenadresse dieser Zelle in 


Spaltendekoder 


3 Ausgewählte 


den Adresspuffer 1-Bit-Zelle 


© RAS-Signal 
Das Steuersignal RAS wird über 


die RAS-Pins übergeben - so 
erfährt die DRAM-Steuerung, 
dass es sich bei der Adresse um 
eine Zeile handelt, noch nicht 
um eine Spalte 


Speicherfeld 
(Matrix) 


Zeilendekoder 


© Zeilendekoder 
Die DRAM-Steuerung übergibt 
die Adresse vom Puffer an den 


Zeilendekoder, der nun die rich- 


Daten Daten 


tige Zeile („row“) auswählt Se ee 


Daten schreiben 


© Spaltenadresse (CAS) 

Nach kurzer Verzögerung folgt 
die Spaltenadresse mit dem 
CAS-Signal 


Daten lesen D 


© Spaltendekoder 
Der Spaltendekoder wählt an- 
hand dieser Adresse die Spalte 


(„column“) aus DRAM-Chip Bank 3 ... Bank 7 

(7) Lesezugriff 1 28Mx8 Bank 2 
Das WE-Signal („Write Enable“) 16 MBit x 8 x Bank 1 
bleibt inaktiv. Es werden also 8 = 1.024 MBit S z Bank 0 
keine Daten geschrieben, son- (1 28 MByte) 16 MBit x 8 = 128 MBit 


dern nur ausgelesen; bei einem 
Schreibzugriff würde dieses 
Signal aktiviert 


© Datenübertragung 
Die gewählte Speicherzelle 


entlässt ihren Inhalt über die 
Bitleitung in den Datenpuffer 


(9) Abschluss des Zugriffs 

Der Datenpuffer übergibt die 
Informationen über die DQ-Pins 
an den Datenbus zum Speicher- 
controller, der sie dann an die 
CPU weiterreicht 


* Vereinfachte Darstellung 
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DRAM-Verbesserungen 


Die zahlreichen Nachteile von DRAM (Zellauffrischung, vergleichsweise 
langsamer Zugriff etc.) sorgten schon früh dafür, dass Entwickler nach 
besseren Alternativen suchten. Bis heute jedoch konnte sich DDR- 
DRAM gegen zahlreiche Konkurrenztechniken behaupten. In jüngster 
Vergangenheit gab es aber einige interessante Weiterentwicklungen 


Chip-Stacking 


Chip-Stacking beschreibt die 


Anordnung mehrerer Chips überei- 
nander, sodass auf gleicher Grund- 


fläche zwei- bis achtmal so viel 


Siliziumfläche für Speicherzwecke 
genutzt wird. Früher wurden hierzu 


fertig verpackte Chips gestapelt 


Bild: Intel 


(Package on Package), später ging 

man stellenweise dazu über, mehrere Silizium-Chips innerhalb eines 
Packages zu stapeln. Allerdings sind so nur deren Außenkanten zu- 
gänglich. Mit traditioneller Verdrahtung (wire bonding) sind so nicht 
genügend Kontakte für schnellen RAM möglich. 


High Bandwidth Memory 


HBM wurde primär von SK Hynix in Kooperation mit AMD entwickelt 
und später von der JEDEC einheitlich standardisiert. Die Spezifikati- 
onen sehen bis zu acht DRAM-Speicherchips übereinander vor, zu- 
nächst erscheinen aber Varianten mit vier Ebenen. Von diesen verfügt 
jede über zwei DDR-Speicherkanäle, insgesamt acht, mit jeweils 128 
Bit. Als Hauptspeicher-Ersatz ist HBM aber noch nicht geeignet, es 
kommt bislang ausschließlich auf Grafikkarten zum Einsatz. 


Die erzielte Bandbreite ist gigan- 
tisch: Vier HBM-Module erzielen 
512 GByte/s Speicherbandbrei- 
te, während GDDRS5-basierte 
GPUs maximal 385 GByte/s bei 
deutlich mehr Platzverbrauch 
schaffen. Künftige Versionen von 
HBM sollen die Bandbreite wei- 
ter erhöhen. 


Hybrid Memory 
Cube 


5 
pei 
> 
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= 
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Eine Alternative hat Micron in Kooperation mit Intel 2011 das erste Mal 
präsentiert. Zwischenzeitlich wurde der Entwicklerkreis zum Hybrid 
Memory Cube Consortium erweitert, dem unter anderem Samsung als 
zweiter Speicherentwickler sowie AMDs Stammfertiger Globalfoundries 
sowie zahlreiche Größen aus dem HPC-Geschäft wie Cray und IBM 


angehören. 


Der Grundaufbau eines HMC ähnelt HBM. Auch die aktuellen Hybrid 
Memory Cubes setzen auf vier gestapelte Speicherchips, allerdings zu 
je 512 MiB. Als Besonderheit verlagert HMC den DRAM-Controller in 
den Speicherbaustein. Anstelle des massiv paralleln und komplexen 
DRAM-Interface, das herkömmliche DDR-DIMMs aber auch HBM-Sta- 


Bild: Intel 
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cks nutzen, verwendet HMC pake- 
torientierte Übertragung und serielle 
Links. Verfügbar sind HMC-Varianten 
mit deren vier oder acht, wobei jeder 
Link im Normalfall aus 16 seriellen 
Lanes pro Richtung besteht. Für vier 
Links sind Geschwindigkeiten von 10 
bis 15 GBit/s pro Lane bei längeren 
Verbindungsstrecken über das PCB 
spezifiziert. 


die benötigt werden, um eine Zeile 


in der Speicherbank zu aktivieren. 


tRCD („RAS low to CAS low delay“) 
legt fest, wie lange es dauert, bis die 


benötigten Spalten aktiviert sind. 


Und zuletzt die bekannteste aller 
Latenzen, die tCL, die bestimmt, wie 
viele Takte vergehen müssen, bis 
davon ausgegangen werden kann, 
dass die Daten vollständig aus den 
benötigten Speicherzellen ausgele- 


sen wurden. 


Stabilität contra 
Übertakten 

Damit lässt sich auch der Zusam- 
menhang aus Spannung, schärfe- 
ren Timings und höherer Stabilität 
erklären. Angenommen, Sie verrin- 
gern die tCL Ihres Speichermoduls. 
Damit nimmt der Speichercon- 
troller bereits einen Taktzyklus 
vor dem vom Speicherhersteller 
vorgesehenen Zeitraum die Kor- 
rektheit der ausgelesenen Daten an 
- genauer gesagt: Der Signalpegel 
entspricht dann noch nicht dem 
Datumswert. Wird mit diesen Wer- 
ten jedoch weitergerechnet, kann 
oder Schreibfehlern 


und zu einem Absturz des Systems 


es zu Lese- 
kommen. 


Wenn Sie jedoch die Spannung des 
Speichers minimal anheben, sinkt 
die benötigte Zeit, um definierte 
Ladungszustände schneller zu er- 
reichen. Das System kann wieder 
stabil werden. Das Gleiche gilt in 
dieser Form natürlich auch für alle 
anderen, hier nicht beschriebenen 


Latenzen. 


ECC-Speicher 
Eine wichtige Funktion ist die 
Fehlerkorrektur bei Speichermo- 
dulen. Zu diesem Zweck kann pro 
Byte ein spezielles Paritätsbit zum 
Einsatz kommen. Ein Byte ist also 
fortan neun anstelle von acht Bit 


lang. Man spricht in diesem Fall von 


„ECC-Speicher“ („error correction 


code“). 


Kippt ein Bit, was zum Beispiel 
durch kosmische Hintergrund- 
strahlung oder elektromagnetische 
Interferenz bei hohen Speicher- 
dichten durchaus passieren kann, 
besteht mittels des Paritätsbits und 
des für die Korrektur zum Einsatz 
kommenden Hamming-Codes die 
Möglichkeit, diesen Fehler zu kor- 
rigieren. Kippen zwei Bits, kann 
dies noch erkannt, aber nicht mehr 
korrigiert werden, ab dem dritten 
kann auch ECC nichts mehr aus- 


richten. 


ECC muss sowohl vom Speicher- 
modul als auch vom Speichercon- 
troller und vom Mainboard unter- 
stützt werden. Da entsprechende 
Module sehr teuer und meist nur 
als Registered DRAM verfügbar 
sind, kommen sie fast ausschließ- 
lich in Server-Rechnern zum Ein- 
satz. Alle Angaben aus den vorher- 
gehenden Abschnitten müssen bei 
Registered RAMs entsprechend an- 
gepasst werden: So ist jeder „Rank“ 
72-bittig angebunden und hat in 


der Regel neun statt acht Speicher- 


chips. 

Datenkohärenz- 
Sicherung 

Bei besonders hochkapazitiven 


RAM-Modulen kommt ein externes 
Register („Registered RAM“) zum 
Einsatz, welches zwischen dem 
Speichercontroller und den Spei- 
cherchips sitzt und somit den Erst- 
genannten „entlastet“, was die Sig- 


nalqualität deutlich erhöht. 


Ein Nachteil dieser Methode ist die 
schlechtere Leistung: Da sowohl bei 
Lese- als auch bei Schreibzugriffen 
immer zunächst in das zwischen- 
geschaltete Register geschrieben 
wird, vergeht ein kompletter Takt- 
zyklus, ehe die Daten am Ziel an- 


kommen. 


D as grundlegende Prinzip der 
Datenein- und -ausgabe ist bei 


allen modernen Speichermodulen 
gleich geblieben. Wie schafften es 
die Entwickler, dennoch stetig neue 


Bandbreitenrekorde aufzustellen? 


Doppeltes Lottchen 

Bei DDR-SDRAM, einer Weiterent- 
wicklung von SDRAM, wandte man 
einen Trick an, um die Datenrate zu 
verdoppeln. Da der „Referenztakt“ 
der Speicherchips nicht signifikant 
erhöht werden konnte, entschlossen 
sich die Ingenieure, beide Taktflan- 
ken, also die an- und absteigende, zur 
Übertragung von Daten zu nutzen. 
Dies wird durch ein Prefetch-Verfah- 
ren realisiert. So kann ein mit 100 
MHz getaktetes DDR-SDRAM Modul 
theoretisch doppelt so viele Daten 
übertragen wie ein mit 100 MHz ge- 
taktetes SDR-SDRAM-Modul. In der 
Praxis gehen ein paar Prozent Leis- 


tung verloren. 


DDR 1 und die physika- 
lischen Grenzen 

Mit den DDR400-Modulen hatten 
die Hersteller eine bereits mehrere 
Jahre alte Speichertechnologie bis 
aufs Letzte ausgequetscht. Einige 
Module benötigten zudem Kühl- 
körper, bis dato ein völliges Novum 
und zu dieser Zeit tatsächlich mehr 


als nur eine optische Spielerei. 


Neben der enormen Wärmeent- 
wicklung der DDR400-Module war 
vor allem die mangelhafte Termi- 
nierung ein großes Problem. Mit 
zunehmender Taktfrequenz wurde 
das Signal auf dem Speicherbus im- 
mer „verwaschener“ (der Bus war 
nie für 200 MHz ausgelegt). Hin- 
tergrund: Das Signal läuft über den 
Speicherbus durch das RAM-Mo- 
dul. Da die Terminierung - also 
der Abschluss des Busses - nicht 
direkt im letzten Chip stattfindet, 
sondern erst am Ende des Busses, 
wird das Taktsignal dort reflektiert. 


Das so zurückgeworfene Taktsignal 


Überblick: 


„schwappt“ bildlich gesprochen un- 
kontrolliert auf dem Speicherbus 
auf und ab und stört so durch Über- 
sprechung das reguläre Signal. Je 
höher die Taktfrequenz, desto aus- 
geprägter der Effekt. Hinzu kommt, 
dass es sich bei DDR-SDRAM um 
ein paralleles Arrangement handelt, 
das mit zahlreichen Gabelungen 
versehen ist. So war DDR-SDRAM 
im Gegensatz zu Rambus (serielle 
Anordnung) in Sachen maximaler 
Taktfrequenz von Haus aus gehan- 
dikapt. 


Der nächste Schritt: 
DDR2 

DDR2-SDRAM brachte im Vergleich 
zu DDR-SDRAM wieder eine Ver- 
dopplung der effektiven Datenra- 
te. Dies wurde dadurch erreicht, 
dass sowohl der Prefetch-Buffer 
von zwei auf vier Bit als auch der 
I/O-Takt, mit dem das Modul nach 
außen kommuniziert, verdoppelt 
wurden. Doch wie genau funktio- 


niert das? 


Ein herkömmliches DDR400-Modul 
läuft real mit 200 MHz. Das gilt für 
den Kern des Chips ebenso wie für 
die Schaltungen auf dem Modul und 
den Speicherbus. Dank doppelter 
Datenrate ergibt das eine effekti- 
ve Takfrequenz von 400 MHz. Bei 
einem DDR2-400-Modul dagegen 
sieht das etwas anders aus. Hier lau- 
fen die Zellen lediglich mit 100 MHz 
Taktfrequenz, sind jedoch mit 4 Bit 
Prefetches an den I/O-Puffer des 
Moduls angebunden statt mit nur 
2 Bits. Die Zellen können also trotz 
halbierter realer Taktfrequenz ge- 
genüber einem DDR-I-Modul die 


gleiche Transferrate liefern. 


Mainboard 


Von DDR1- 
bis DDR5-Speicher 


«ur 
MRIEROBZAANI-CKB 800-45 100 


DDR-Speicher ist nicht JEDEC-exklusiv: Schon die ersten Rambus-Mo- 
dule brachten Double-Data-Rate-Technik, waren allerdings deutlich 
teurer als vergleichbare SDR-Speichermodule jener Zeit. 


Speichertechniken 


SDRAM 


ERR = 100 MHz Taktfrequenz = 100 MHz DEER u I WS 


[= geen 


DDR 


TRSN = 100 MHz Taktfrequenz = 100 MHz ee = E Ta 


Lie: 


BR = 100 MHz Taktfrequenz = 200 MHz a = 400 MHz 


LILIT LI 


Datenbus 


DDR3 


JI? 


Kernfrequenz = 100 MHz Taktfrequenz = 400 MHz Datenfreq. = 800 MHz 


Datenbus 


DDR4 


Kernfrequenz = 200 MHz Taktfrequenz = 800 MHz Datenfreq. = 1.600 MHz 


ET ET ET 


Datenbus 


Speicherentwicklung: Lange Zeit ließ sich mehr Leistung herauskitzeln, indem 
die /O-Puffer vergrößert wurden. Doch das klappte bei DDR4 nicht mehr, hier 
mussten die Entwickler erstmals seit fast zwei Dekaden die Kernfrequenz an- 
heben. Die befürchtete stark erhöhte Wärmeentwicklung konnte dank feinerer 


Herstellungsprozesse eingedämmt werden. 
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Speichertypen in der Übersicht 


Bezeichnung Zelltakt VO-Takt Datendurchsatz 

PC66 66 MHz 66 MHz SDR 533 MiByte/s 

PC100 100 MHz 100 MHz SDR 800 MiByte/s 

PC133 133 MHz 133 MHz SDR 1.066 MiByte/s 

DDR-200 100 MHz 100 MHz DDR 1.600 MiByte/s (PC-1600) 
DDR-266 133 MHz 133 MHz DDR 2.100 MiByte/s (PC-2100) 
DDR-333 166 MHz 166 MHz DDR 2.700 MiByte/s (PC-2700) 
DDR-400 200 MHz 200 MHz DDR 3.200 MiByte/s (PC-3200) 
DDR2-400 100 MHz 200 MHz DDR 3.200 MiByte/s (PC2-3200) 
DDR2-533 133 MHz 266 MHz DDR 4.266 MiByte/s (PC2-4200) 
DDR2-667 166 MHz 333 MHz DDR 5.333 MiByte/s (PC2-5300) 
DDR2-800 200 MHz 400 MHz DDR 6.400 MiByte/s (PC2-6400) 
DDR2-1066 266 MHz 533 MHz DDR 8.533 MiByte/s (PC2-8500) 
DDR3-1066 133 MHz 533 MHz DDR 8.533 MiByte/s (PC3-8500) 
DDR3-1333 166 MHz 667 MHz DDR 10.667 MiByte/s (PC3-10600) 
DDR3-1600 200 MHz 800 MHz DDR 12.800 MiByte/s (PC3-12800) 
DDR3-1866 233 MHz 933 MHz DDR 14.933 MiByte/s (PC3-14900) 
DDR3-2133 266 MHz 1.066 MHz DDR | 17.066 MiByte/s (PC3-17000 
DDR4-1600 200 MHz 800 MHz DDR 12.800 MiByte/s (PC4-12800) 
DDR4-2133 266 MHz 1.066 MHz DDR | 17.066 MiByte/s (PC4-17000 
DDR4-2666 333 MHz 1.333 MHz DDR | 21.333 MiByte/s (PC4-21300 
DDR4-3200 400 MHz 1.600 MHz DDR | 25.600 MiByte/s (PC4-25600 
RD300 300 MHz 300 MHz QDR 1.200 MiByte/s (PC600) 
RD400 400 MHz 400 MHz QDR 1.600 MiByte/s (PC800) 
RD3200* 400 MHz 400 MHz QDR 3.200 MiByte/s (RIMM 3200) 
RD4200* 533 MHz 533 MHz QDR 4.200 MiByte/s (RIMM 4200) 
RD6400* 800 MHz 800 MHz QDR 6.400 MiByte/s (RIMM 6400) 


Bus-Terminierung 


Mainboard Signal Terminator 


Terminierung aus 


Die Verlegung der Terminatoren vom Bus direkt in den Chip soll dafür sorgen, 
dass Signalrauschen durch Reflexionen weitgehend eliminiert werden. 
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Vorteil dabei: Die Zelle verbraucht 
wesentlich weniger Strom, da nicht 
nur die Taktfrequenz halbiert wird 
(lineare Abhängigkeit der Verlust- 
leistung), sondern als Folge davon 
auch die Kernspannung von 2,5 V 
auf 1,8 V gesenkt werden kann (hin- 
zu kommen allerdings meist noch 
bessere Fertigungsprozesse). Die 
Chips eines DDR2-400-Moduls pro- 
duzieren demnach bis zu 70 Pro- 
zent weniger Verlustleistung als die 
eines vergleichbaren DDR1-400- 
Moduls. Oder anders gerechnet: Bei 
gleicher Verlustleistung können die 
Hersteller wesentlich höhere Takt- 


frequenzen aus den Chips kitzeln. 


DDR2: Schwachstellen 
und Lösungen 

Der Preis für diese Leistungsstei- 
gerung ist ein drastischer Anstieg 
der Latenzen, da sich an der grund- 
legenden Speichertechnik der 
DRAM-Speicherchips nichts geän- 
dert hat. Faktisch sind die Latenzen 
bei DDR2-SDRAM im Vergleich zu 
DDR-SDRAM also fast doppelt, bei 
DDR3-SDRAM sogar fast viermal so 
hoch. Rechnet man den Takt jedoch 
in Nanosekunden um, ergeben sich 


fast identische Wartezeiten. 


Auch der Signal-Reflektionen ha- 
ben sich die Entwickler beim 
DDR2-Speicher angenommen und 
das Übel an der Wurzel gepackt. 
Getreu dem Motto „Wo nichts mehr 
ist, kann auch nichts mehr reflek- 
tieren“ wird der letzte Chip eines 
Moduls nicht mehr erst auf dem 
Speicherbus terminiert, sondern 
unmittelbar im Kern selbst. Die Ent- 
fernung zur Terminierung beträgt 
damit quasi null und bietet so auch 
kein „Futter“ mehr für Störsignale 


und Busrauschen. 


Neben der neuen Terminierung 
gibt es noch eine Reihe weiterer 
Verbesserungen, die dafür sorgen, 
dass das Signal trotz hoher Taktfre- 


quenzen sehr sauber und damit we- 


nig anfällig für Störungen ist (zum 
Beispiel ein zweites Strobe-Signal 
und die OCD-Kalibrierung). 


DDR3-Speicher 

Bei der Einführung der DDR3-Spei- 
chertechnologie hat das Speicher- 
konsortium JEDEC den alten Trick, 
der bereits bei DDR2 zum Einsatz 
kam, einfach wiederholt. Statt im 
Verhältnis 1:2 zum Speicherbus tak- 
ten die Zellen auf einem DDR3-Mo- 
dul nun nur noch im Verhältnis 1:4. 
Um trotzdem auf eine bei gleichem 
Speicherbus-Takt identische Trans- 
ferrate zu kommen, werden bei 
DDR3-Speicher 8 Bits pro Prefetch 
ausgelesen statt 4 bei DDR2-RAM. 


Allerdings war es nicht das Ziel 
der Entwickler, die gleiche Trans- 
ferrate bei niedrigerem Takt zu 
erreichen, sondern eine höhere 
Transferrate bei gleichem Chiptakt. 
DDR3-1600-Module weisen dabei 
folgende Eckdaten auf: realer Spei- 
cherbus-Takt 800 MHz, effektiver 
Speicherbus-Takt dank DDR-Ver- 
fahren 1.600 MHz, Zelltakt nur 200 
MHz, Transferrate ca. 12.800 MiB/s. 
Durch den erneut niedriger ge- 
wordenen Zelltakt bei inzwischen 
verbessertem Produktionsverfah- 
ren konnte die Kernspannung bei 
DDR3 von 1,8 auf 1,5 Volt gesenkt 
werden. Das kommt wiederum der 


Leistungsaufnahme zugute. 


An einigen Schwächen ändert aber 
auch die DDR3-Technologie nichts: 
Durch den großen Prefetch-Buffer 
leidet die Effizienz beim Zugriff auf 
kleine, zusammenhanglose Spei- 
cherbereiche. Zudem gab es auch 
in Sachen Latenzzeit seit Jahren kei- 
ne Fortschritte mehr. Ob 2T-Latenz 
bei DDR, 4T-Latenz bei DDR2 oder 
8T-Latenz bei DDR3 - alles resul- 
tiert unter dem Strich in derselben 
Latenzzeit, also der Dauer in Nano- 
sekunden, die von der Anforderung 
der Daten bis zur Lieferung verge- 


hen. 


DDR4-Speicher 

Der vorläufig letzte Akt beim Haupt- 
speicher hört auf den Namen 
„DDR4“. Mittlerweile setzen alle 
aktuellen Plattformen auf die vierte 
DDR-Generation. Im Wesentlichen 
schreibt DDR4 dabei die bisherige 
Entwicklung fort: Mehr Bandbrei- 
te, weniger Spannung, höher Pa- 
ckungsdichten, aber nach wie vor 
auch vergleichsweise geringe Effizi- 


enz und lange Latenzzeiten. 


DDR4-Speicher arbeitet mit einer 
niedrigeren Standardspannung als 
DDR3-RAM. Erneut geht es um 0,3 
Volt nach unten, und zwar auf 1,2 
Volt (DDR3: 1,5 Volt). Die jüngste 
DDR-Generation ist darüber hinaus 
fit für höhere Speicherdichten und 
profitiert außerdem von einigen 
Detailoptimierungen, etwa bei der 
Ansteuerung und Fehlerkorrektur, 
damit trotz der gegenüber DDR3- 
RAM gesteigerten Taktraten ein sta- 


biler Betrieb möglich ist. 


DDR4 im Detail 

Die Anzahl der Kontaktflächen er- 
höht sich von 240 auf 288, sodass 
es noch wichtiger ist als bisher, sich 
vor dem Einsetzen zu versichern, 
dass der Steckplatz sowie die Kon- 
takte frei von Verunreinigungen 
sind. Eine leicht auf eine Seite ver- 
setzte Einkerbung verhindert im 
Zusammenspiel mit einem entspre- 
chenden Gegenstück im Steckplatz 


ein falsches Einsetzen. 


Um mehr Speicherkapazität auf 
einer gleichen Chipfläche unter- 
zubringen, spielen neben Fort- 
schritten bei der Verkleinerung 
der Strukturgröße Verfahren wie 
3D-Stacking eine wichtige Rolle. 
Mittels Silizium-Durchkontaktie- 
rung ist es möglich, eine vertikale 
elektrische Verbindung zwischen 
mehreren Lagen eines Silizium-Sub- 
strats zu realisieren und damit meh- 
übereinander 


rere geschichtete 


Dies anzusprechen. Wie Speicher- 


hersteller bereits gezeigt haben, ist 
3D-Stacking zwar technisch bereits 
mit DDR3-RAM möglich, bringt 
aber unter anderem neue Aktivie- 
rungsbefehle und anders belegte 
Chip-Unterseiten mit sich, die in 
der ursprünglichen DDR3-Spezi- 
fikation nicht vorgesehen waren. 
Mit DDR4-RAM schaffte die JEDEC 
von Beginn an die Möglichkeit, auf 
3D-Stacking zurückzugreifen und 
bis zu acht einzelne Silizium-Chips 
übereinanderzustapeln. Langfristig 
gesehen dürfte diese Neuerung vor 
allem im professionellen Umfeld ge- 
ringere Aufpreise für hochkapazita- 
tive RAM-Module bedeuten. 


Doppelte Dichte 

Mit DDR4 erhöht sich auch die Kom- 
plexität der internen Organistation 
weiter: Bis zu 8 Ranks und 16 inter- 
ne Bänke - nicht mit Steckplätzen 
auf dem Mainboard zu verwechseln 
- sind nun erlaubt; bei DDR3-RAM 
lagen die Limits noch bei 4 Ranks 
und 8 internen Bänken. Die 16 Bän- 
ke eines Speicherchips werden mit 
DDRí allerdings in Gruppen von 4 
Bänken unterteilt. 


Jede Bank ist unterteilt in Zeilen und 
Spalten. Die Speicherkapazität pro 
Zeile beträgt bei DDR3-RAM entwe- 
der 1 oder 2 KiByte, bei DDR4-RAM 
wurde die Untergrenze auf 512 Byte 
gesenkt. Je kürzer eine Zeile, desto 
schneller können unterschiedliche 
Zeilen aktiviert werden und desto 


weniger Energie wird benötigt. 


Detailverbesserungen 

Einmal mehr macht die Signalqua- 
lität bei der nächsten Ausbaustufe 
Probleme. Daher beinhaltet die 
DDR4-Spezifikation mehrere Maß- 
nahmen, welche einen fehlerfreien 
Betrieb sicherstellen sollen. DDR4- 
RAM unterstützt beispielsweise 
eine zyklische Redundanzprüfung 
bei Schreibzugriffen sowie die Pa- 
ritätsprüfung von Kommando- und 


Adressierungssignalen. 


Mainboard 


Alle DDR4-Module zeichnen sich durch eine zur Seite hin abgeschrägte 
Kontaktleiste aus - so auch dieser mit Micron-D9RGQ-Chips bestückte 
8-GiByte-Riegel von Crucial. 


DDR4- und DDR3-RAM 
im Vergleich 


Eigenschaft DDR3-RAM DDR4-RAM 
DDR-Rating DDR3-800 bis DDR3-2133 | DDR4-1600 bis DDR4-3200 
Zelltakt 100 bis 266 MHz 200 bis 400 MHz 


E/A-Puffer-Takt 


400 bis 1.066 MHz 


800 bis 1.600 MHz 


Kapazität pro Chip 


512 Mbit bis 8 Gbit 


2 Gbit bis 16 Gbit 


Kapazität pro Modul max. 128 GiByte max. 512 GiByte 
(theoretisch) (theoretisch) 
Bänke 8 16 
pro Speicherchip (je 4 gruppiert) 
Kontakte 240 288 
Modulhöhe 30,35 Millimeter 31,25 Millimeter 
Modulbreite 133,35 Millimeter 133,35 Millimeter 
Moduldicke 1,00 Millimeter 1,20 Millimeter 
Standardspannung 1,50 Volt 1,20 Volt 


Low-Voltage-Option 


1,35 Volt (DDR3L) 
bzw. 1,25 Volt (DDR3U) 


1,05 Volt (DDRAL), 
aber noch nicht spezifiziert 


Prefetch 


8 Bit 


8 Bit 
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Mainboard 


Überblick: Speichermodule 
im Vergleich 


Eine Auswahl aus rund 30 Jahren Speichergeschichte von alt nach neu: 
SIMM mit 72 Pins und 1 MiByte (1) sowie 16 MiByte (2) mit jeweils 60 

ns Zugriffszeit, SDRAM (PC-100) mit 64 MiByte (3), 256 MiByte DDR- 
SDRAM (PC-3200) (4), 1 GiByte DDR2-800 (PC-6400) (5), 2 GiByte DDR3- 
1333-RAM (PC-10600) (6) und 8 GiByte DDR4-2133 (PC-17000) (7) 


ut nn 


SDRAM (PC-100) mit 64 MiByte 


MDTE 10MMB DOR2-200 CLS 
en Cp tot NOIS 
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DDR2-800 (PC-6400) mit 1 GiByte 


BELBROLANSDEATSARRRBERLNNAN 


DDR4-2133 (PC-17000) mit 8 GiByte 
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Neu ist auch die im Speicherseg- 
ment bereits mit GDDR4 eingeführ- 
te Technik „Data Bus Inversion“ 
(DBD. Dabei werden eingehende 
Signale elektrisch invertiert, also 
umgedreht, wenn sich damit ein 
niedrigerer Energiebedarf und 
weniger Ladungswechsel erzielen 
lassen. Eine 0 wird also zu einer 
1, wenn bei einer eingegangenen 
Gruppe von Bits mindestens die 
Hälfte eine Ladungsänderung zur 
korrekten Verarbeitung erfordern 
würde. Die betroffene Folge von 
Bits wird allerdings mithilfe eines 
Flag-Bits gekennzeichnet, damit die 
Daten später korrekt ausgelesen, 
also erneut invertiert werden. Die- 
ser Vorgang verbessert in der Praxis 
die Signalqualität und reduziert die 


Leistungsaufnahme. 


Referenzspannungen 

Referenzspannungen stellen verein- 
facht gesagt die Grenze zwischen 
den Spannungszuständen dar, die 
entweder als 0 oder als 1 interpre- 
tiert werden können. Bei DDR3 gibt 
es zwei verschiedene Eingangs-Pins 
für den Daten-Bus sowie für Kom- 
mando- und Adressierungssignale. 
Bei Datenübertragungen entsteht 
allerdings Signalrauschen, das auch 
die Referenzspannungen beein- 
trächtigt. Daher sieht die JEDEC 
für DDR4-RAM vor, dass der Ein- 
gangs-Pin für die Referenzspan- 
nung der Datenleitung wegfällt und 
diese Referenzspannung_ stattdes- 


sen intern erzeugt wird. 


Bei der Eingabe-/Ausgabe-Schnitt- 
stelle der Datenleitung kommt 
zur Signalterminierung statt SSTL 
(Series-stub terminated logic) nun 
POD-Technik (Pseudo-open drain) 
zum Einsatz, die im Grafikbereich 
bereits seit GDDR3 üblich ist. Ab- 
hängig von der Temperatur finden 
zum Erhalt des Speicherinhalts er- 
forderliche Wiederauffrischungszy- 
klen nun seltener statt - je kühler, 


desto seltener. 


Kein neues Prefetching 

Positiv dürfte sich auf die Leistung 
auswirken, dass anders als bisher bei 
jeder Einführung eines neuen DDR- 
RAM-Standards nicht noch mehr 
Daten auf Verdacht in einen Puffer 
geladen werden (Prefetching) und 
der Eingabe-/Ausgabe-Puffer be- 
schleunigt wird - dessen Takt gibt 
PC Games Hardware üblicherweise 
an -, sondern stattdessen die Takt- 
frequenz der Speicherzellen selbst 


gesteigert wird. 


Ein Beispiel: Während die Speicher- 
zellen eines DDR2-800-Riegels und 
eines DDR3-1600-Moduls jeweils 
mit 200 MHz laufen, beträgt der 
Zelltakt DDR4-3200-Sticks 


400 MHz. Eine erneute Auswei- 


eines 


tung des Prefetching hätte dazu 
geführt, dass sich die Effizienz von 
DDR-RAM weiter reduziert, denn 
schließlich werden nie alle auf Ver- 
dacht vorgeladenen Daten tatsäch- 


lich benötigt. 


DDR4 und die Zukunft 


Den großen Schnitt macht 
DDR4-Speicher 


bietet die neue Generation eini- 


nicht; allerdings 
ge Detailverbesserungen, die für 
mehr Speicherkapazität, höhere Ge- 
schwindigkeit und weniger Ener- 
giebedarf sorgen. Ob und wann es 
einen komplett neuen Speichertyp 
geben wird, der viele Unzuläng- 
lichkeiten von DDR-RAM beseitigt, 


weiß derzeit niemand. 


Als wahrscheinlich gilt es, dass die 
parallele Datenübertragung von 
und zum Speicher wie bei vielen an- 
deren Schnittstellen mittelfristig ei- 
ner seriellen wird weichen müssen. 
Die Begriffe seriell und parallel we- 
cken dabei allerdings falsche Assozi- 
ationen. Gemeint ist lediglich, dass 
die Speichereinheiten so organisiert 
werden könnten, dass simultane Zu- 
griffe einfacher werden. Eine solche 
Technik dürfte allerdings nicht als 
„DDR5“ auf den Markt kommen. 


Infrastruktur 


So funktioniert die Infra- 
struktur: Solid State Disks 


Einige SSDs (hier eine Sandisk Ultra Plus) kommen mit vier Speicherchips 
aus; der zur Verfügung stehende Raum wird nicht einmal ansatzweise aus- 
genutzt, was letztlich neue und kompaktere Bauformen wie M.2 ermöglichte 
(siehe auch Kapitel „Mainboards“) 


SDs, also „Solid State Drives“, 
So sich rasant weiter: 
Innerhalb weniger Jahre haben sie 
sich von Laufwerken, für die SATA 
1,5 GBit/s noch ausreichend war, zu 
Speichermedien gemausert, die lan- 
ge Zeit jeden Schnittstellenstandard 
vor sich hertrieben (siehe auch Ka- 
pitel Mainboard, Abschnitt SATA). 


Das SSD-Prinzip 

Die grundlegende Arbeitsweise ist 
bei fast allen SSDs gleich. Hinter 
der Schnittstelle zum System wartet 
der Controller, der die Verteilung 
der Daten regelt. Die Daten selbst 
lagern auf den Flash- oder auch 
NAND-Chips. 


Im Gegensatz zu normalem Spei- 
cher behalten sie ihren Dateninhalt 
auch, wenn gerade kein Strom an- 
liegt - „nichtflüchtig“ oder englisch 
„non-volatile“ nennt man das in der 
Fachsprache. 


Q 


1 Bit Per Cell 2 Bits Per Cell 3 Bits Per Cell 
First 550 NAND technology 100% increase 50% increase 
100K DIE Cycles 10K P/E Cycles 3K P/E Cycles 


{at technology imroduction) 


Fewer writes per cell 
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QLC = More Density Per NAND Cell 
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4 Bits Per Cell 


33% Inorease 


1K PIE Cycles 


Die Speicherdichte erhöht sich mit jedem zusätzlichen Bit pro Zelle. Die 16 Spannungsniveaus pro Zelle eines QLC- 


Flashs könnten aber die letzte Evolutionsstufe des NAND-Speichers sein 
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Controller und Cache 
Der Controller entscheidet darü- 
ber, wie die Bits bestmöglich auf 
die einzelnen Flash-Speicher ver- 
teilt werden. Beim Controller-Chip 
handelt es sich um einen per Firm- 
ware gesteuerten Prozessor. Oft 
basiert dieser auf dem CPU-Design 
der britischen ARM-Holding. Die 
meisten modernen Controller nut- 
zen einen schnellen Cache, der aus 
denselben Speicherbausteinen wie 
normaler Arbeitsspeicher besteht 
- von DDR- bis DDR4-RAM ist alles 
vertreten. 


Sandforce-Controller 

Eine Ausnahme bilden die Sand- 
force-Controller. Diese weisen ei- 
nige Eigenschaften auf, die sie eine 
zeitlang zum beliebtesten SSD-Con- 
troller überhaupt machten, inzwi- 
schen aber zu einem Nachteil statt 
einem Vorteil wurden. Die Sand- 
force-Familie wurde ursprünglich 
nämlich für günstige SSDs entwi- 
ckelt. Sie ermöglicht den Verzicht 
auf den DDR-Cache. Die fehlende 
Caching-Möglichkeit gleichen die 
Sandforce-Controller durch eine 
integrierte Kompressionsfunkti- 
on aus, die eintreffende Daten vor 
dem Schreiben komprimiert. Da 
sich so die zu sichernde Datenmen- 
ge verringert, schien es zu Zeiten 
von langsamerem Flash so, als wä- 
ren Sandforce-SSDs besonders leis- 


tungsfähig. 


Nun, einige Jahre später, wo alle 
Controller die von SATA-6-GBit/s 
herangekarrten Datenmengen 
mehr oder weniger mühelos in 
Echtzeit aufs Flash bannen können, 
hat sich der Vorteil zu einem Nach- 
teil verkehrt. Die Kompressions- 
funktion ist nämlich nutzlos, wenn 
die ankommende Datenmenge ge- 
deckelt ist, und der Controller und 
das Flash die ankommenden Daten 
gut abarbeiten können. Zudem lässt 
sich die Kompression nur auf un- 


komprimierte Inhalte anwenden. 


Damit fallen viele Mediendateien 
durch das Raster - ausgerechnet je- 
ner Bereich, wo das höchste Daten- 


aufkommen auftritt. 


Controller-Eigenheiten 

Daten können bei SSDs wie Fest- 
platten immer nur blockweise ge- 
schrieben werden. Auch wenn nur 
ein einzelnes Bit geändert werden 
muss, wird eine „Page“ in den Con- 
troller-Cache eingelesen, dort um- 
programmiert und dann am Stück 
zurückgeschrieben. Daher ist es 
enorm wichtig, dass der Controller 
die Zugriffe sinnvoll und möglichst 


optimal zusammenfassen kann. 


Kanäle und Chips 

Darüber hinaus werden mehrere 
Datenleitungen vom Controller pa- 
rallel verwaltet und bedient. Eine 
solche Datenleitung wird auch als 
Kanal bezeichnet; aktueller Stan- 
dard sind vier bis zehn Kanäle pro 
SSD-Controller. Die meisten Cont- 
roller verwenden acht Kanäle, tech- 
nisch möglich sind bei der aktuel- 


len Generation aber 4 bis 32. 


Pro Kanal kann wiederum eine be- 
stimmte Menge Chips - meist eben- 
falls vier bis acht an der Zahl - an- 
gebunden werden. Die Anzahl der 
Chips kann mit entsprechenden 
Dekodern auf bis zu 16 pro Kanal 
erhöht werden (siehe auch Darstel- 


lung in der Randspalte). 


Volle Leistung 

Um die volle Leistung zu erreichen, 
muss beim Controller eine Mindest- 
zahl an Kanälen mit Flash-Chips 
bestückt sein. Die Kapazität ist da- 
bei unwichtig, alleine die Anzahl 
der bestückten Kanäle sowie die 
Geschwindigkeit der Chips ist rele- 


vant. 


Wenn wir pro Flash-Package eine 
maximal unterstützte Geschwin- 
digkeit von 1.600 MBit/s (ein Byte 
entspricht 8 Bit, also 200 MByte/s) 


ansetzen, brauchen wir theoretisch 
insgesamt vier Chips an vier Kanä- 
len, um ein SATA-6-Gbit/s-Interfa- 
ce voll auszulasten. Dieses bietet 
maximal 750 MByte/s abzüglich 
Overhead, den wir der Einfach- 
heit halber aber ignorieren. Sind 
die Flash-Chips langsamer, muss 
zusätzlicher Speicher angebunden 
werden, um in Summe die gleiche 


Leistung zu erreichen. 


SATA-6 Gbit/s stellt dabei aber erst 
seit Kurzem den Flaschenhals dar. 
In den Jahren zuvor war es meist 
der SSD-Controller. 


Flash-Speichertypen 

Neben der Organisation kommt es 
natürlich auch auf die Art und Ei- 
genschaften des Speichers selbst 
an. Eines der wichtigsten Kriterien 
für die Performance ist die Zahl der 
gespeicherten Bits pro Speicherzel- 
le. Unterschieden wird dabei nach 
SLC, MLC, TLC- und QLC-Zellen. 
SLC-Flash-Bausteine können pro Zel- 
le genau ein Bit speichern („Single 
Level Cell“), MLCs dagegen mindes- 
tens zwei Bits pro Zelle („Multi Level 
Cell“). Seit einiger Zeit verwenden 
die Hersteller auch TLC-Speicher, 
der drei Bits aufnehmen und so ins- 
gesamt acht verschiedene Zustände 
unterscheiden kann („Triple Level 
Cell‘). Zur besseren Abgrenzung 
benutzt man den Begriff „MLC“ seit- 
dem synonym für Zwei-Bit-Speicher- 
zellen. Auch die nächste Ausbaustu- 
fe QLC („Quadruple Level Cell‘), ist 


bereits im Einsatz. 


Alle Zelltypen haben Vor- und Nach- 
teile. SLC-Speicher ist am schnells- 
ten, erlaubt aber keine allzu großen 
Packungsdichten. MLC, TLC und 
QLC dagegen vertragen aufgrund 
der feineren Bauweise weniger 
Schreibzyklen. Die Hersteller un- 
ternehmen daher Schritte, um die 
Lebensdauer der Zellen unter Bei- 
behaltung der Speicherdichte zu 
erhöhen. Erhöhte Ausfallraten mit 


Infrastruktur 


Wie ein modernes SSD- 
Laufwerk aufgebaut ist 


Ein Flash-Chip ist bei Weitem nicht so schnell, wie es die Leistungs- 
daten aktueller SSDs vermuten lassen. Stattdessen resultiert die Ge- 
schwindigkeit aus einer intelligenten Verschaltung von vielen Chips. 


Ausgehend von dem Maximaldurchsatz eines aktuellen Controllers be- 

sitzt ein Flash-Chip eine Geschwindigkeit von bis zu 200 MB/s. Um eine 
höhere Geschwindigkeit zu erreichen, werden mehrere davon verschal- 
tet. Dabei lässt sich eine gewisse Anzahl Chips pro Kanal betreiben. 


Die Flash-Chips sind über den Datenbus mit dem Controller verbunden. 
Über diesen senden und empfangen sie die Daten, welche gespeichert 
werden sollen oder die der Controller angefordert hat. Damit die Chips, 
welche am gleichen Kanal hängen, nicht gleichzeitig senden oder emp- 
fangen, stehen sie zusätzlich über Steuerleitungen mit dem Controller 
in Verbindung. Über diese kann der Controller die einzelnen Chips (de-) 
aktivieren und der Chip kann seinen Status dem Controller mitteilen. So 
kann dieser Schreib- und Lesevorgänge abwarten und bei Bedarf her- 
einkommende Daten auf einen anderen Kanal umleiten. 
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Kanal 0 Chipo ` Chip1 +++ Chipn | 


LI) 


dli Ill 


Kanal 1 
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Chip0 ` Chip 1 Chipn | 


A 


Controller 
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Kanal 2 | 


Chien ` CH) + Chipn 
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Kanaln Chipo ` Chip1 +++ Chipn | 
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CE 


=== Chip Enable 


MLC- und TLC-Flash sind immerhin 


bislang nicht bekannt geworden. 


3D-VNAND 

Der Ausweg aus dem Dilemma, für 
immer höhere Speicherdichte zu 
sorgen und gleichzeitig die Struktu- 
ren widerstandsfähig genug für ein 
ganzes SSD-Leben zu halten, ist der- 


selbe, wie ihn Architekten für die 


=== Ready/Busy 


Datenbus 


Gebäude in den Großstädten dieser 
Welt gefunden haben: Statt in die 
Breite zu wachsen, wird der Chip in 
die Höhe gebaut. Samsung nennt es 
3D-VNAND (‚Vertical NAND“) und 
wandte es erstmals bei Datacen- 
ter-SSDs und der SSD 850 Pro an. 
Das Unternehmen stapelt 32 Lagen 
des Speichers übereinander, sodass 


die Strukturen in den einzelnen 
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SD-VNAND erklärt 


Da der Bedarf an Speicherdichte 
immer weiter zunimmt, der Inte- 
grationsprozess dafür aber nicht 
einfacher wird, dürfte sich zukünftig 
das Konzept des 3D-VNAND durch- 
setzen. Durch die runde Form der 
Speicherzelle lassen sich viele davon 
übereinanderstapeln - zurzeit bis zu 
96 davon. Da die Ladung von der 
röhrenförmigen Control-Gate-Silizi- 
umschicht eingeschlossen ist, ist sie 
besser vor Interferenzen geschützt. 


L Si-Kanal 
(Ladungsspeicher 
Isolator 
Control Gate 


C me: 


3D V-NAND 


Schichten wieder wachsen dürfen. 

Aber das ist nicht der einzige Vor- 
teil: Während die Speicherzellen 
bislang meist in einer flachen 
Bauform ausgeführt sind, haben sie 
im VNAND eine runde Form. Da- 
durch sind die Speicherzellen nach 
außen abgeschirmt, was mögliche 
Interferenzen reduziert. Die zur 
Fehlerkorrektur notwendige Logik 
darf einfacher ausfallen und arbei- 
tet schneller, was auch in einen Vor- 


teil für die SSD-Leistung mündet. 


„Pseudo-SLC“ 
MLC-Speicher benötigt für das Be- 


schreiben von Zellen beziehungs- 
weise das Speichern von Daten 
deutlich mehr Zeit als SLC-basierter 
Speicher. Um diesen Nachteil auszu- 
gleichen, beschreiben einige Lauf- 
werke bestimmte Bereiche einer 
MLC-SSD wie SLC-Speicher mit nur 
einem Bit. Es handelt sich also um 


Innenleben einer SSD (SATA 


Flash 


In diesen Chips lagern 
die Daten - deren Inhalt 
bleibt natürlich auch ohne 
Stromzufuhr erhalten. 
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Controller 


Hierbei handelt es sich um das Herzstück 
der SSD, maßgeblich verantwortlich für die 
Performance. 


Cache 2 


Je nach Controller-Typ wird DRAM-Cache ge- 
nutzt, um die Zugriffe auf den Flash-Speicher 
zu beschleunigen. 


Schnittstelle 


SATA 6 Gb/s war lange Zeit die Standard- 
Schnittstelle; der Wachwechsel (zu PCle) ist 
aber in vollem Gange. 


Puffer 4 


Stützkondensatoren verhindern bei besseren 
Modellen einen augenblicklichen Datenverlust 
bei Stromschwankungen 


eine Art „Pseudo-SLC“, das wie eine 


zweite Cache-Stufe funktioniert. 


Während es bei Sandisk und Sam- 
sung festgelegte Bereiche mit fi- 
xer Kapazität sind, arbeitet eine 
relativ neue Lösung von Crucial 
dynamisch. Konkret bedeutet das, 
dass jede Speicherzelle in der SSD 
theoretisch als Pseudo-SLC dienen 
kann. Zudem darf diese Funktion 
(vorübergehend) bis zur Hälfte des 
SSD-Speicherplatzes verbrauchen. 
Etwaige arbeitsfreie Momente nutzt 
der Controller dann, um später den 
eigentlichen Wunschzustand in 
Form von beschriebenen MLC-Zel- 


len herzustellen. 


Wear Levelling & Co. 

Da die einzelnen Flash-Zellen nur 
eine begrenzte Anzahl an Schreib- 
zugriffen überstehen, werden Vor- 
kehrungen getroffen, damit die 
Belastung durch Schreibzugriffe 
den Flashspeicher möglichst gleich- 
mäßig „abnutzt“ (Wear Levelling). 
Dazu gehört neben dem Umsortie- 
ren häufig verwendeter Daten zum 
Beispiel auch das Zusammenfassen 


von Zugriffen. 


Daneben wird oft noch ein Be- 
reich des Flashspeichers in Reserve 
gehalten, in dem freie Blocks zur 
Verfügung stehen, wohin die Zu- 
griffe umgeleitet werden können 
- sowohl das Wear Levelling als 
auch die Performance kann hier- 
von profitieren. Schließlich steht 
mit dem Trim-Befehl unter aktu- 
ellen Betriebssystemen eine Mög- 
lichkeit zur Verfügung, der SSD zu 
signalisieren, welche Blocks nicht 
mehr benötigte Daten enthalten 
und direkt überschrieben werden 
können, ohne sie vorher einlesen 
und separat löschen zu müssen. 
Allzu große Sorgen um die Flash-Le- 
bensdauer muss sich aber niemand 
machen: Selbst billige SSDs überste- 
hen bei normalem Gebrauch locker 


zehn Jahre und mehr. 


estplatten sind der Inbegriff der 
DB. Massenspeicher. 
Diese sind trotz der Konkurrenz 
durch SSDs immer noch am preis- 
wertesten (pro Gigabyte) - wenn- 
gleich sie in nahezu allen anderen 


Disziplinen das Nachsehen haben. 


Speicherriesen 

Festplatten werden nach wie vor 
recht schnell weiterentwickelt. 
So sprang die Kapazitätsgrenze in 
einem 3,5-Zoll-Laufwerk von vier 
Terabyte im Jahre 2014 auf acht Tera- 
byte Ende 2015. 2017 waren bereits 
12 TB erreicht und seit 2019 sind 
Modelle mit 14 Terabyte im Endver- 
braucher-Segment erhältlich. Neue 
Schreibtechnologien sollen die Spei- 
cherdichte von Festplatten weiter 
erhöhen. Mit dem kürzlich vorge- 
stellten „Heat-assisted magnetic re- 
cording“ (HAMR) sollen in Zukunft 
HDDs möglich werden, die eine Ka- 
pazität von 100 Terabyte und mehr 


aufweisen können. 


Das Grundprinzip 

Vor mehr als 60 Jahren hat alles be- 
gonnen: Die IBM 350 RAMAC war 
die erste Festplatte, sie konnte gan- 
ze 3,75 Megabyte Speicher bereit- 
stellen. Dafür benötigte man 1956 
einen 173 cm hohen Plattenstapel 
aus 50 magnetisierbaren Alumini- 


umscheiben. 


Solche Plattenspeicher sind auch 
mehr als 60 Jahre später noch im 
Einsatz, natürlich viel geringer 
dimensioniert und deutlich leis- 
tungsfähiger als damals, das Grund- 
prinzip hat sich aber seither nicht 
wesentlich verändert. Durch neue 
Materialien und Herangehenswei- 
sen beim Schreiben konnte die 
Speicherdichte immer wieder er- 


höht werden. 


Der Grundaufbau 
Prinzipiell werden Daten auf allen 
Festplatten durch magnetische Zu- 


stände gesichert. Gespeichert wird 
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auf magnetischen Metallscheiben, 
die mit Hochgeschwindigkeit um 
eine Achse rotieren. Diese Scheiben 
bestehen meist aus einer Alumini- 
um- oder Magnesium-Legierung, 
aus Glas oder Verbundstoffen - je 
nachdem welche Datendichten 
man erreichen möchte. Wichtig ist, 
dass die Materialien formstabil sind, 
eine geringe elektrische Leitfähig- 
keit aufweisen und nicht magne- 


tisch sind. 


Diese Metallplatten (engl. Platter) 
werden dann mit einer Eisenoxid- 
oder Kobalt-Schicht versehen, wel- 
che die eigentliche Speicherung 
von Informationen erlaubt. In die- 
ser Schicht sind winzige Partikel 
vorhanden, die in Körnern eine ma- 
gnetische Polung annehmen und 
so Daten speichern können. Die 
beiden unterschiedlichen magneti- 
schen Ausrichtungen entsprechen 
dabei den Einsen und Nullen binä- 


rer Daten. 


Prinzipiell könnte eine Speiche- 
rung von Information bereits jetzt 
erfolgen, aber in der Praxis wird 
dieser magnetisierbare Belag noch 
zusätzlich mit einem diamantähnli- 
chen Kohlenstoff geschützt, um me- 
chanische Beschädigungen durch 
den Lese- und Schreibkopf des Mas- 
sensspeichers zu vermeiden. Außer- 
dem erhöht dies die Kapazität der 
HDD weiter. 


Bei hohen Speicherdichten und 
Umdrehungsgeschwindigkeiten 
von mehreren tausend Rotationen 
pro Minute ist die Oberfläche und 
allgemein die innere Mechanik ei- 


ner Festplatte extrem empfindlich. 


Formfaktoren: 5,25 Zoll, 2 x 3,5 Zoll (PATA/SATA), 2,5 Zoll (für Notebooks), 1,8 
Zoll (Ultra-Portables/Netbooks) und ein 1-Zoll-Microdrive in aufsteigender 
Reihenfolge 
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Wie die Festplattenkapazi- 
tät mit PMR erhöht wird 


Perpendicular Recording ist eine Technik, mit der die Datendichte er- 
höht werden kann. Unsere Übersicht zeigt, wie es funktioniert 


Longitudinal Recording 


Schreib-/Lesekopf 


Zusätzliche Schicht 


Zwar ist der technische Aufwand beim „Perpendicular Recording“ 
höher, die vertikale Ausrichtung der Speicherpartikel erlaubt dafür eine 
deutlich höhere Datendichte 


Roti 


Hion, 
LC ee 


Festplatten, die mit He- 
lium gefüllt sind, wirken 
wie aus einem Guss. 
Charakteristisch für 

sie sind die fehlenden 
Schrauben an der Ober- 
seite des Gehäuses 
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Daher gleicht das Innenleben der 
Festplatte quasi einem Reinraum. 
Kleinste Mengen Staub zwischen 
Platter und Lesekopf oder gar das 
Öffnen des Gehäuses sind in der Re- 
gel tödlich für HDDs. 


Helium 

Mittlerweile kann man Festplatten 
auch gar nicht mehr öffnen: Der 
Hersteller HGST (Hitachi) brachte 
vor einigen Jahren mit Helium ge- 
füllte Festplatten auf den Markt. Das 
Edelgas hat eine geringere Dichte 
als Luft, was es möglich macht, Plat- 
ten enger übereinander zu setzen, 
da dadurch Strömungseffekte mi- 
nimiert werden. So können mehr 
Scheiben verwendet werden, was 
die Kapazität erhöht. Zudem sollen 
die Festplatten dadurch auch etwas 
kühler laufen, was letztlich auch 


Strom spart. 


Laut HGST sollen dem mehrere 
Jahre Entwicklungszeit vorausge- 
gangen sein, da es nicht nur eine 
Herausforderung war, das Gas in 
das Gehäuse hineinzubekommen, 
sondern es auch so zu verschließen, 
dass es nicht wieder entweicht. 
Mittlerweile sind Festplatten mit 
hoher Kapazität aller Marken mit 


Helium gefüllt. 


Festplatten-Geometrie 

Doch auch Im Helium-Reinraum 
entfällt das Grundprinzip der Fest- 
platte nicht. Die Daten sind und 
bleiben, ähnlich 


Schallplatte, in konzentrischen Rin- 


wie auf einer 


gen, nicht einer fortlaufenden Rille, 
auf den Plattern angeordnet. Zwar 
ist ein separater Kopf pro abzutas- 
tender Platteroberfläche vorhan- 
den, bewegt werden kann aber nur 
das gesamte Konstrukt auf einmal - 
und dies kostet einfach vergleichs- 


weise viel Zeit und Energie. 


Da überrascht es nicht, dass die 
Entwickler schon relativ bald auf 


die Idee kamen, Schreibvorgänge 


umzusortieren und damit die Per- 
formance zu erhöhen. Mit NCQ 
(„Native Command Queue‘) wer- 
den unnötige Bewegungen des 
Schreib-Lese-Kopfes vermieden 
und die Wartezeiten verkürzt, bis 
der Kopf auf der richtigen Position 
der Scheiben steht. Für NCQ ist das 


AHCI-Protokoll erforderlich. 


LMR und PMR 

Die Kapazität einer Festplatte wird 
logischerweise durch die Fläche 
begrenzt, die magnetisiert werden 
kann. Das Longitudinal Magnetic 
Recording (LMR, 
magnetische Aufzeichnung) wurde 


längslaufende 


nahezu 50 Jahren für die Speiche- 
rung von Informationen auf einer 
Festplatte verwendet und erst 2006 
durch den Nachfolger, die Senk- 
rechtaufzeichung (PMR), abgelöst. 


Beim LMR sind die Bereiche, die für 
ein Bit an Information magnetisiert 
werden, parallel zur Rotationsrich- 
tung des Datenträgers orientiert. 
Das Schreiben von Daten erfolgt 
dann durch einen Schreibkopf, der 
über eine Spule verfügt, die mit 
dem entstehenden Magnetfeld den 
Bereich direkt darunter auf der Me- 


tallplatte magnetisiert. 


Schreibvorgang 

Beim Schreibvorgang entstehen so 
viele kleine magnetisierte Berei- 
che, die Daten konzentrisch auf der 
Scheibe anordnen. Dabei entstehen 
auch benachbarte Bits mit einer 
entgegengesetzten Magnetisierung, 
die durch eine Übergangsschicht 
voneinander getrennt vorliegen. 
Beim Lesevorgang erzeugen die 
kleinen magnetischen Bereiche 
auf der Festplatte ein Magnetfeld in 
der Spule, sodass es zur Induktion 
einer geringen Spannung kommt, 
die verstärkt wird und dann als Da- 


tenstrom ausgelesen werden kann. 


Durch Verringerung der Speicher- 


struktur - also kleinere magnetisier- 


bare Bereiche, die ein Bit darstellen 
- können so Datendichten von bis 
zu 31 Gigabit pro Quadratzentime- 
ter erreicht werden. Erst dann wirkt 
sich der superparamagnetische Ef- 


fekt aus. 


Der Superparamagnetismus_ stellt 
für magnetisierbare Speicherme- 
dien die physikalische Obergrenze 
der möglichen Aufzeichnungsdich- 
te dar, da sich hier schon geringe 
Temperaturschwankungen auf die 
Daten auswirken. Die Speicherkör- 
ner an magnetisierbaren Partikeln 
können die Magnetisierung bereits 
durch geringe thermische Änderun- 


gen verlieren. 


Perpendicular 

Magnetic Recording 

Um die Kapazität der bisherigen 
Festplatten weiter zu erhöhen, kam 
man auf die pfiffige Idee, die mag- 
netisierbaren Bereiche nicht längs, 
sondern senkrecht zu organisie- 
ren. Mit der neuen Anordnung der 
Speicherkörner beim sogenannten 
Perpendicular Magnetic Recording 
(PMR) konnte die Datendichte bei 
gleicher Fläche etwa dreimal so 
dicht organisiert werden wie noch 
beim LMR. Damit sind bis zu 160 
Gigabit pro Quadratzentimeter re- 


alisierbar. 


Bereits 1976 stellte Shun’ichi Iwasa- 
ki fest, dass die senkrechte Ausrich- 
tung des magnetischen Moments 
bei Datenträgern eine Erhöhung 
der Speicherdichte nach sich zieht, 
aber erst 2005 war es möglich, die- 
se Technik als Konsumgut in Form 
einer 2,5-Zoll-Festplatte mit 160 GB 
und einer 3,5-Zoll-Festplatte mit 
750 GB Speicher unterzubringen 
- ganze 29 Jahre nach Iwasakis Ent- 


deckung. 


Angepasster 
Schreibkopf 
Das Schreibverfahren im PMR un- 


terscheidet sich durch die verän- 


derte räumliche Anordnung der ma- 
gnetisierbaren Bereiche etwas vom 
herkömmlichen longitudinalen 
Speichervorgang. Der Schreibkopf 
muss nämlich einen viel fokussier- 
teren magnetischen Fluss erzeugen, 
der tiefer in das Speichersubstrat 
hineinreicht. Dafür werden die 
Pole des Schreibkopfes so verän- 
dert, dass der Hauptpol schmaler 
und der Rückpol dafür umso breiter 


ausfällt. 


Dadurch können am Hauptpol hohe 
Feldstärken erzeugt werden, die das 
Material ummagnetisieren und so 
Informationen sichern. Der Rück- 
pol muss dagegen so breit sein, da- 
mit das Magnetfeld abgeschwächt 
wird und die bereits geschriebenen 
Daten nicht sofort wieder verloren 


gehen. 


Dank dieses Designs des Schreib- 
kopfes können die magnetischen 
Feldlinien senkrecht in das Spei- 
chersubstrat eindringen. Hinzu 
kommt noch ein weichmagneti- 
sches Medium unter der senkrecht 
angeordneten Speicherschicht, die 
äußerst durchlässig für Magnetfel- 
der ist und als magnetischer Spie- 
gel für den Schreibkopf fungiert. 
Mit dieser Anordnung ist es mög- 
lich, die Feldlinien aus dem brei- 
ten Rückpol perpendikular in den 
Hauptpol zu leiten und so einen 
senkrecht ausgerichteten Speicher- 


bereich zu erzeugen. 


Angepasster 

Lesekopf 

Der Lesekopf bleibt beim PMR- 
prinzipiell gleich zum LMR-Ver- 
fahren, lediglich die Sensitivität 
wurde über den Riesenmagneto- 
widerstandseffekt erhöht. Bei die- 
sem quantenmechanischen Effekt 
wird der elektrische Widerstand 
der Speicher-Bits gemessen: Je nach 
Orientierung der Speicherbits ist 
der Wert hoch (entgegengesetzt) 
oder gering (parallel). 
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Wie Shingled Magnetic Re- 
cording (SMR) funktioniert 


Normalerweise speichern Festplatten ihre Daten in konzentrischen Rin- 
gen, die in einem gewissen Abstand voneinander liegen. Beim Shing- 
led Magnetic Recording überlappen sich die Spuren jedoch wie Schin- 
deln auf einem Dach („Shingle“, engl. für „Schindel“), womit die Dichte 
angehoben werden kann. Damit ein gut gefülltes SMR-Laufwerk bei 
einem erneuten Schreibvorgang aber nicht sämtliche Spuren neu ab- 
speichern muss, sind sie in Bändern organisiert, zwischen denen ein 
größerer Abstand liegt. So müssen maximal die Spuren eines Bandes 
neu geschrieben werden. 


Normale Festplattentechnik 
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Hier wird nochmal klar, wie viel mehr Daten durch das PMR-Verfahren auf die 


gleiche Fläche eines Platters geschrieben werden können. Bei LMR ist der 
superparamagnetische Effekt der limitierende Faktor 
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Bild: O. Hellwig et al. 2013 


Bild: Seagte Blog, pcgh.de/seagteblog 
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Wie Daten auf Festplatten- 
physisch angeordnet sind 


Séi So sehen sieben Bits 
auf einer Festplatte 


aus: Immer 20 bis 30 
solcher Granula bilden 
ein Bit ab. Lagen die 
magnetisierbaren 

4 Bereiche beim LMR 
noch längs, stehen sie 
senkrecht beim PMR. 
Man sieht also nur 
den Anfang 


A Mit Bit Patterend Me- 
dia werden im Vorfeld 
Inseln aus dem Spei- 
chersubstrat erzeugt, 
die sich deutlich 
kleiner organisieren 
lassen. Mit BPM lässt 
sich der superpara- 
magnetische Effekt 
bei PMR umgehen 


10,0 


STC 


ADUANCRD STORAGE Coen: Ar CbSerAN i 
HDMR = Heated Dot 


Magie Recording | 
(BPMRHAMR FOMI) | 


HAMR*® = Hest Assisted 
Magnetic Recording with 
TOMR and/or SMR 


10 PMR? = PMR with Two- 


Dimensional Magnetic Recording 
(FDMR) and/or Shingled Magnetic 
Recording (SMR) 


PMR = Perpendicular 
Magnetic Recording 


Aufzeichnungsdichte in Terabit/Zoll2 


Di t 
2013 2015 2017 2019 2021 2023 2025 


Year 


2006 wurde LMR von PMR abgelöst. Noch 2019 soll HAMR kommen, welch- 


es dann mit Bit Patterend Media zu HDMR (Heat Dotted Magnetic Record- 
ing) wird 
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Je enger man die konzentrischen 
Speicherkreise auf einem Platter 
zieht, desto mehr Information kann 
man logischerweise auf selbigem 
speichern. PMR hat aber wie LMR 
praktisch schon die Obergrenze 
erreicht - mehr Daten pro Quad- 
ratzentimeter können in solchen 
Datenkreisen kaum gespeichert 


werden. 


Kleinere Bit-Größen 

Wissenschaftler haben außerdem 
bereits die Bit-Größe - also die ma- 
gnetisierbaren Körner, die für ein 
Bit stehen - bei PMR-Festplatten 
drastisch verringert. Dies konnte 
bewerkstelligt werden, indem Spei- 
chermaterialien herangezogen wur- 
den, die eine hohe Koerzitivfeld- 
stärke aufweisen. Damit wird die 
magnetische Feldstärke beschrie- 
ben, die benötigt wird, um eine fer- 
romagnetische Substanz vollständig 
zu entmagnetisieren. Besitzt ein Ma- 
terial also eine hohe Koerzitivfeld- 
stärke, kann es die Magnetisierung 
stabiler und effektiver halten - ideal 


also für Festplatten. 


Shingled Magnetic 
Recording (SMR) 

Pfiffige Forscher haben beim Shing- 
led Magnetic Recording (SMR) 
die Anordnung der magnetischen 
Spuren auf der Festplatte dahinge- 
hend optimiert, dass diese nun wie 
Dachschindeln angeordnet sind. 
Dadurch werden zwar benachbarte 
Bahnen teilweise überschrieben, 
diese werden dann aber neu ge- 
schrieben, um einen Datenverlust 
zu vermeiden. Außerdem werden 
diese „Datenschindeln“ in Grup- 
pen organisiert, damit sich die 
Notwendigkeit des Neuschreibens 
nicht über den gesamten Platter 
zieht. Damit wird zwar teilweise 
die 


dieses Verfahren ermöglicht aber 


Geschwindigkeit verringert, 
eine Erhöhung der Datendichte 
um 25 Prozent bei gleicher Platter- 
fläche. 


Heat Assisted Magnetic 
Recording (HAMR) 

Ansätze wie SMR, heliumgefüllte 
Festplattengehäuse oder optimier- 
te Lesealgorithmen können zwar 
kurzzeitig den Bedarf nach mehr 
„Fest‘“-Speicher stillen, über kurz 
oder lang kommen all diese Verfah- 
ren aber wieder an die Grenze ihrer 
Aufzeichnungsdichte. Erst das von 
Seagate entwickelte Heat Assisted 
Magnetic Recording (hitzeunter- 
stütztes Schreibverfahren) erlaubt 
neue Speicherdichten über die bis- 


herigen Limitierungen hinaus. 


Bei HAMR wird der Bereich, in dem 
Daten geschrieben werden sollen, 
kurzzeitig mit einem Laser über die 
Curie-Temperatur des Platters auf- 
geheizt. Erst bei dieser Temperatur 
verlieren die Partikel ihre Magneti- 
sierung und können einen neuen 
magnetischen Zustand annehmen. 
Dieser liegt auch nach dem Abküh- 
len stabil vor, obwohl die Speicher- 
strukturen bei diesem Verfahren 
noch kleiner dimensioniert sind 
als bisher. Damit kann der super- 
paramagnetische Effekt, der LMR 
obsolet machte, für Festplatten mit 
HAMR umgangen werden - man fi- 
xiert die Magnetisierung gewisser- 


maßen durch einen Laser. 


Western Digital verfolgt mit MAMR 
(Microwave Assisted Magnetic Re- 
cording) einen anderen Ansatz, 
um die Limitierungen von PMR 
zu umgehen. Statt eines Lasers, 
der das Material aufheizt, erzeugt 
ein Spin-Torque-Oszillator ein Ma- 
gnetfeld am Schreibkopf mittels 
Mikrowellen. Dadurch kommt 
man wieder in den Bereich von 
realisierbaren Feldstärken, die bei 
einer höheren Aufzeichnungsdich- 
te notwendig werden. HAMR soll 
noch in diesem Jahr eine Festplatte 
mit 16 Terabyte erlauben, bis 2025 
versprechen sich die Speicher- 
forscher Festplatten mit 100 Tera- 


byte und mehr. 


Bit Patterned Media 
(BPM) 

Für Speicher mit 100 Terabyte 
und mehr muss die HAMR-Techno- 
logie aber noch als „Bit Patterned 
Media“ organisiert werden. Dabei 
handelt es sich um magnetische 
Inseln, die jeweils im Nanometer- 
maßstab Bits speichern (eine Insel, 
ein Bit). Bisher werden Daten auf 
einem magnetischen Film gespei- 
chert, der eine granulare Struktur 
aufweist. Dort wird ein Bit mit un- 
gefähr 20 bis 30 magnetisierbaren 
Körnern abgebildet (siehe Abbil- 
dung links). 


Durch Herabsetzen der Durch- 


schnittskorngröße kann man bis 


zum superparamagnetischen Effekt 


die Speicherdichte erhöhen. 


Bei BPM sind die Speicherstruktu- 
ren, in diesem Fall also die Inseln, 
durch Nanolithografie bereits vor- 
gegeben. Jedes Bit wird bei BPM 
dann über eine starke Austausch- 
wechselwirkung repräsentiert, 
anstatt wie beim granulosen Sub- 
strat durch viele schwache Wech- 
selwirkungen. Das bedeutet im 
Umkehrschluss, dass die Energie- 
barriere nun proportional zum In- 
selvolumen ist und nicht mehr zum 
Volumen einzelner Speicherkörner. 
Damit kann die Dichte erneut ange- 
hoben werden, denkbar sind bis zu 
300 Terabyte pro Quadratzoll. 
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Wie Schreibvorgänge mit 
NCQ optimiert werden 


Die Umsortierung der Lese-/Schreibzugriffe berücksichtigt nicht nur 


die hier dargestellte Kopfbewegung, sondern auch die Rotationslatenz 


bei der Optimierungsstrategie. 


Wie eine Festplatte intern aufgebaut ist 


SEN 


— tn armen, 


Spindelmotor 


Je nach Modell treibt der Motor die 
Platter auf bis zu 15.000 U/min - üblich 
sind 5.400 bis 7.200 U/min. 


Aktuator/Leseköpfe 


Jeder Lesekopf am präzise gesteuerten 
Aktuator hängt nur den Bruchteil eines 
Millimeters über dem Platter. 


Platter 


Die Platter tragen außen eine ferro- 
magnetische Schicht, deren einzelne 
Elemente die Bits rerpäsentieren. 


Controller 2 


Ein meist ARM-basierter Prozessor mit 
DRAM-Cache optimiert und organisiert 
die Lese-/Schreiboperationen. 
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So funktioniert die 


Bitte beachten Sie: Öffnen Sie nie ein Netzteil - im Gerät gibt es keine zu 
wartenden Teile! Die Bauteile können elektrische Ladung speichern, der bei 
Kontakt zum Stromtod führen kann! 


Netzteil-Effizienz der 
einzelnen 80-Plus-Standards 


Effizienzstufen 10 Prozent 20 Prozent 50 Prozent 100 Prozent 

80 plus Nicht definiert 82% 85% 82% 
Nicht definiert 85% 88% 85% 

[80 Plus Silber | Nicht definiert 87% 90% 87% 
[80 plus Gold | Nicht definiert 90% 92% 89% 

80 plus Platinum | Nicht definiert 92% 94% 90% 
90% 94% 96% 94% 
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Infrastruktur: Netzteil 


M! den 230 Volt Wechselspan- 
nung aus europäischen Steck- 


dosen können hochempfindliche 
Bauteile nicht arbeiten. Für den 
Computer sind daher 3,3 bis 12 Volt 
Gleichspannung (DC) notwendig, 
um einen einwandfreien Betrieb zu 
garantieren. Wie wird dieser Strom 
gewandelt und warum ist dieser 


Prozess überhaupt wichtig? 


Schaltnetzteildesign 

Die heutige Stromversorgung in 
Rechnern übernehmen Schaltnetz- 
teile, sodass die Energieübertra- 
gungüblicherweise mit Frequenzen 
von 15 kHz bis 300 kHz vonstatten- 
geht. Natürlich gibt es noch weitere 
Netzteiltypen wie etwa ein Konden- 
sator- oder ein Trafonetzteil, die ein 
anderes Design verwenden, diese 
sind aber nicht in der Lage, die An- 
forderungen der PC-Hardware ad- 


äquat zu erfüllen. 


Beim Schaltnetzteil wird der Strom 
aus der Dose im Spannungswandler 
durch Transistoren in kleine Pake- 
te zerlegt. Transistoren fungieren 
dabei als An/Aus-Schalter (siehe 
CPU-Kapitel). Entsprechend der 
verwendeten Frequenz werden die 
Strompakete dank anderer Kompo- 
nenten wie Kondensatoren oder 
Spulen weitergegeben. Bevor aber 
irgendwelche Computer-Hardware 
die Strompakete bekommen kann, 
werden diese wieder zu einem kon- 
tinuierlichen Strom zusammenge- 
fügt und können dann problemlos 


verbraucht werden. 


Das hat gegenüber linear-regulier- 
ten Netzteilen einige Vorteile, bei- 


spielsweise ein geringeres Gewicht. 


Dieses kann nämlich bei hohen Fre- 
quenzen reduziert werden, indem 
sowohl beim Ferrit- oder Eisenkern 
als auch bei den Kupferwicklungen 
des Transformators die Masse ver- 
ringert wird. Ein Umspanner, der 
für eine Leistung von 4.000 Watt 
geeignet sein soll, wiegt bei einer 
Frequenz von 50 Hz - was übrigens 
der europäischen Netzspannung 
entspricht - ganze vier (!) Kilo- 
gramm. Erhöht man dagegen die 
Schaltfrequenz auf 125 kHz, sind es 
nur noch knapp 470 Gramm, was ei- 
ner Gewichtseinsparung von 88,25 


Prozent entspricht. 


Wirkungsgrad 

Ein anderer wichtiger Aspekt von 
Schaltnetzteilen ist der erhöhte 
Wirkungsgrad. Bei linear-regulier- 
ten Spannungswandlern ist die 
Effizienz maßgeblich vom Unter- 
schied zwischen Input- und Out- 
put-Stromspannung abhängig. Hier 
wird die ausgegebene Spannung 
über die Verlustleistung in Form 
von Wärme reguliert, sodass Wir- 
kungsgrade von 30 bis 40 Prozent 
normal sind. Bei Schaltnetzteilen 
beträgt die Effizienz dagegen schon 
60 bis 70 Prozent, weil Schaltverlus- 
te an den Transistoren entstehen. 
Dies kann aber durch eine Schalt- 
optimierung verhindert werden. 
Netzteile mit einem guten Design, 
einer angepassten Frequenz und 
dem Zero-Current- (ZCS) respektive 
dem Zero-Voltage-Switching (ZVS) 
können Wirkungsgrade von bis zu 


95 Prozent erreichen. 


Die beiden genannten Schaltmetho- 
den werden über einen LCC-Reso- 
nanzwandler realisiert, sodass die 
Schaltverluste an den Transistoren 
und die Verlustleistung minimiert 
werden können. Ist ein solcher 
Transistor geöffnet, fließt ein ho- 
her Strom, aber keine Spannung. 
Im geschlossenen Zustand liegt 
stattdessen eine hohe Spannung 


an, aber es fließt kein Strom. Da der 


Netzteil-Aufbau 


Bild: Enermax 
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Kühlung 


Die Effizienz von Netzteilen ist endlich - ein 
Teil der aufgenommenen elektrischen Ener- 
gie geht als Abwärme verloren. Bei High- 
End-Systemen sind auch mit hocheffizienten 
Netzteilen schnell einige Dutzend Watt 
Wärme abzuführen. Die kritischsten Bauteile 
sind die Schalttransistoren, die große 
Ströme auf kleinem Raum bewältigen müs- 
sen. Hier sind zwingend Kühlkörper erforder- 
lich, während anderen Bauteilen meist ihre 
eigene Oberfläche zur Wärmeabgabe reicht. 


Tochterplatine 


Oberklassenetzteile verfügen meist über ein 
modulares Kabelsystem, bei dem sich Kabel 
abnehmen lassen. Die entsprechenden Steck- 
er sitzen seitlich im Netzteil auf einer vom 
eigentlichen Schaltnetzteil getrennten Platine. 
Oft trägt diese auch weitere Kondensatoren 
zur Spannungsglättung. Einige Hersteller 
platzieren gar die gesamte Abwärtswand- 
lung für 5 V und 3,3 V an dieser Stelle. Das 
vereinfacht die primäre Platine zu einem reinen 
12-V-Netzteil, erschwert aber die Kühlung. 


Sekundärseite 


Die Sekundärwicklung des Transformators 
gibt für PCs typische, niedrige Spannungen 
aus, der Strom ist aber immer noch mit dem 
Takt der Primärseite gepulst. Kondensatoren 
und Spulen machen daraus eine saubere 
Gleichspannung, wie sie von PC-Hardware 
benötigt wird. Moderne DC-DC-Layouts be- 
schränken sich auf die Transformation von 
12 V und erzeugen daraus mit Abwärtswand- 
lern, wie sie von Grafikkarten und Main- 
boards bekannt sind, auch 3,3 V und 5 V. 


Primärseite 


Hinter dem Kaltgerätestecker eines 
Schaltnetzteils dienen Spulen und X- bzw. 
Y-Kondensatoren als Eingangsfilter. Aus- 
gefiltert werden Unsauberkeiten aus dem 
Stromnetz und es wird verhindert, dass an- 
dere Geräte durch die Hochfrequenztechnik 
gestört werden. Der bereinigte Wechselstrom 
wird anschließend in in eine Gleichspan- 
nung von 300 bis 400 V umgewandelt, die 
dann vom Primärkondensator geglättet wird. 
Schalttransistoren zerhacken diesen Gleich- 
strom noch in einen gepulsten Strom. 
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Eingang 
Netzspannung 
230 Volt AC 


Ausgang 
DC-Spannung, 
z. B. 12 Volt 
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Wie ein Netzteil den Strom wandelt 


` w 


In diesem Bild sehen Sie, wie die einzelnen Schaltungen in einem Netzteil realisiert werden. 
Teilweise gehen die Schaltungen fließend ineinander über und sind nur schwer ausein- 


anderzuhalten. 


EMI 

Der EMC-/EMI-Filter sorgt für 
die Störimmunität gegenüber 
dem Hausstromnetz. 


PFC 

Die Power Factor Correc- 

tion dient zur Blindleistungs- 
kompensation und erhöht unter 
anderem die Effizienz. 


AC/DC 
Die 230-Volt-Netzspannung 
wird gleichgerichtet. 


© Ppum 


Damit der kompakte Tans- 
formator arbeiten kann, wird 
per Pulsweitenmodulation 
eine hochfrequente Spannung 
erzeugt. Der Taktgeber ist ein 
Schalter oder „Zerhacker“. 


© acıac 


Der Transformer sorgt für die 
Übertragung beziehungsweise 
Transformation der Netzspan- 


Feedback 


nung in die geringere Spannung. 


AC/DC: 
Die heruntertransformierte 
Spannung wird erneut glei- 
chrichtet. 


Q Siebung 


Die Spannung wird geglättet 
und gesiebt und anschließend 
den PC-Bauteilen zugeführt. 
Zudem werden per DC/DC- 
Wandlung die 3,3 sowie 5 Volt 
erzeugt. 


Feedback 

Dient zur Überwachung der 
Ausgangsspannung und zur 
Regelung des PWM-Moduls 


Schaltvorgang etwas Zeit benötigt, 
entsteht eine Verzögerung, in der 
sowohl Spannung als auch Strom 
anliegen. Durch Designoptimie- 
rungen und das genaue Schalten 
des LLC-Resonanzwandlers, wenn 
der Strom sich am Nulldurchgang 
befindet, werden die Schaltverluste 
ebenso Null. Dadurch erhöht sich 
die Leistungsdichte und damit auch 
der Wirkungsgrad des Netzteils. Er- 
reicht werden kann dies mit einem 


sinusförmigen Signal. 


Schaltnetzteile sind in der Regel aus 
mehreren Bereichen aufgebaut, die 
unterschiedliche Aufgaben bei der 
Stromumwandlung und der Strom- 
qualität erledigen. Insgesamt kann 
man deshalb den Grundaufbau in 
mehrere Stationen zerlegen (siehe 
Blockdiagramm links), die wir im 


Folgenden erklären. 


Eingangsfilterung - EMI 
Schaltnetzteile haben nicht nur 
Vorteile wie eine bessere Effizienz, 
sondern erzeugen durch die Schalt- 
vorgänge der MOSFETs ungewollte 
elektromagnetische Interferenzen 
(EMI, auch als Funkstörungen be- 
kannt), die andere elektronische 
Geräte im Netz beeinflussen kön- 
nen. Jeder kennt sicherlich die elek- 
tromagnetischen Interferenzen, die 
entstehen, wenn ein Handy in die 
Nähe eines Lautsprechers kommt. 
Auf der anderen Seite muss das 
Netzteil - und damit der Computer 
- vor Störungen aus dem Stromnetz 


geschützt werden. 


Mittels der EMI-Filterstufe direkt 
nach dem Kaltgerätesteckerein- 
gang wird diese wichtige Station er- 
reicht. Die Filterung erfolgt immer 
vor der Gleichrichtung des Wech- 
selstroms, da an dieser Position Stö- 
rungen der Netzteil-Dioden (für die 
Spannungsstabilität zuständig) ent- 
stehen und so mit herausgefiltert 
werden müssen. Um die Störungen 


zu unterdrücken, werden unter 


anderem X- und Y-Kondensatoren 
(Entstörkondensatoren) eingesetzt. 
Diese Baugruppen leiten hochfre- 
quente Störsignale, die durch den 
Betrieb von Elektrogeräten entste- 
hen, gegen die Masse (X-Kondensa- 
tor) oder den Neutralleiter (Y-Kon- 
densator), sodass die ungewollten 


Störungen reduziert werden. 


Daneben werden auf der Filterstufe 
noch Spulen, Metall-Oxid-Varisto- 
ren (MOV, variabler Resistor) und 
Sicherungen genutzt. MOVs sind 
spannungsabhängige _Widerstän- 
de, die das System vor Spannungs- 
spitzen aus dem Versorgungsnetz 
schützen. Billige Netzteile, die auf 
solch eine MOV verzichten, soll- 
ten Sie dann nur mit einem zuge- 
schalteten Überspannungsschutz 
betreiben, sonst könnte solch ein 
Spannungsausschlag die Hardware 
beschädigen. In diesem Bereich 
kommen auch Spulen zum Einsatz, 
da diese mit steigender Frequenz 
ihren Innenwiderstand erhöhen 
und so hochfrequente Störsignale 


filtern. 


Direkt hinter der EMI-Filterung 
wird meist ein Heißleiter oder 
ein Relais eingesetzt, damit der 
Einschaltstrom möglichst gering 
bleibt. Dieser kann nämlich bis zu 
zehn Mal so ausgeprägt sein wie der 
Nennstrom und dementsprechend 
zu Problemen mit den Stromsiche- 


rungen im Haus führen. 


Leistungskorrekturfilter 
-PFC 

Bei der Versorgung des Schalt- 
netzteils mit der sinusförmigen 
Wechselspannung aus dem Netz 
entstehen phasenverschobene Ein- 
gangsströme, da die Spannungs- 
wandler den Strom unsymmetrisch 
entnehmen. Diese negativen Effek- 
te sind nicht gewollt und bestehen 
aus Oberschwingungen, die hoch- 
frequente Anteile innehaben und 


so in anderen Geräten im Netz Stö- 


rungen verursachen können. Ver- 
mieden werden kann dies durch ei- 
nen Leistungsfaktor, der möglichst 
nahe bei 1 liegt. 


Diese Kenngröße beschreibt das 
Verhältnis von Wirkleistung (tat- 
sächlich verwendbare Energie) und 
Scheinleistung (gesamte zugeführte 
Energie aus Wirkleistung und Blind- 
leistung). Da der Leistungsfaktor 
nicht immer bei 1 liegt, erhöht der 
Leistungskorrekturfilter (PFC, Pow- 
er Factor Correction oder Compen- 


sation) den Wert. 
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Bei kleinen Leistungen bis 200 Watt 
erfolgt dies teilweise noch passiv, 
in modernen Schaltnetzteilen liegt 
aber in der Regel eine aktive elekt- 
ronische Schaltung (APFC) vor, die 
den Leistungsfaktor kontrolliert. 
Die APFC ist quasi ein zusätzliches 
Schaltnetzteil, welches dem eigent- 
lichen Spannungswandler vorge- 
schaltet wird und den bereitgestell- 
ten Strom durch ein PWM-Signal 


kontrolliert. 


Diese Schaltung sorgt dafür, dass 


der aufgenommene Strom immer 


Direkt nach dem Kaltgerätestecker kommt die Eingangsfilterung, die Stör- 

signale aus dem Netz filtern beziehungsweise das Netz vor ebensolchen aus 
dem Spannungswandler schützt. (1) Y-Kondensator, (2) Ableitwiderstand, (3) 
X-Kondensator 


f 


Hier sehen Sie den aktiven Leistungskorrekturfilter, der direkt vor dem Sieb- 
kondensator eine Spule verbaut hat, die den Einschaltstrom ohne Dissipa- 


tion kompensieren kann 
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Info: Wechselstrom in 
Gleichstrom umwandeln 


Sie sehen eine vereinfachte schematische Darstellung, wie aus Wech- 
selstrom computertauglicher Gleichstrom wird. Wechselstrom wird 
gleichgerichtet und dann gesiebt. 
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der sinusförmigen Netzspannung 
entspricht und fährt diese gegeben- 
falls nach, sollte sie von einer Ideal- 
schwingung abweichen. Die APFC 
besteht deshalb in der Regel aus ei- 
nem Gleichrichter mit direkt nach- 


geschaltetem Aufwärtswandler. 


Zunächst löst das PWM-Signal die 
Transistoren der APFC aus, welche 
den erzeugten gleichgerichteten 
Strom in konstante Pulse zerhackt 
und die Spannung dann auf 350 bis 
400 Volt anhebt. Damit wird auch 
der Primärkondensator aufgeladen. 
Dieser siebt die Wechselspannung 
und versorgt das nachgeschaltete 
Netzteil mit Energie. So lassen sich 
mitunter Schwankungen im Netz 
ausgleichen, es entstehen dadurch 
aber auch neue hochfrequente 
Störungen (da ja ein zusätzliches 
Schaltnetzteil eingebracht wird), 
die mittels Netzfilter unterdrückt 


werden müssen. 


Primäre Gleichrichtung 

Computer nutzen keinen Wech- 
selstrom, der aus der Steckdose 
kommt, sondern Gleichstrom. Um 
diesen zu erzeugen, muss der Netz- 
strom gleichgerichtet werden. Der 
Strom aus der Steckdose wechselt 
seine Polung (Richtung) in regel- 
mäßiger Wiederholung und der 
Spannungsverlauf entspricht einer 
Sinuskurve. Bei der Gleichrichtung 
bekommen alle Amplituden, die 
eine negative Polung aufweisen 
(also die Täler der Sinusschwin- 
gung im Graph), ein positives Vor- 
zeichen, sodass die Täler der Sinus- 
kurve in einem Graph vollständig 


nach oben geklappt werden. 


Die Topologie, die dafür heutzuta- 
ge verantwortlich ist, nennt sich 
Gleichrichterbrücke und je nach- 
dem, wie viele MOSFETs eingesetzt 
werden, spricht man entweder von 
einer sogenannten Half oder Full 
Bridge. Die MOSFETs müssen aber 


aktiv angesteuert werden, damit die 


Netzspannung in eine Gleichspan- 


nung gewandelt werden kann. 


Früher wurde dies ohne Ansteu- 
erung über eine Diodenbrücke 
realisiert, die den Wechselstrom 
während der positiven Phase der 
Sinuskurve („Berge“ der Schwin- 
gung) in eine Richtung durchlässt 
(Durchlasspolung). Der Nebenwi- 
derstand der Diode kehrt dann den 
negativen Teil der Sinusschwingung 
(„Täler“) um (Sperrpolung), sodass 
der Strom nun keine Halbschwin- 
gung mehr besitzt. Bevor aber der 
Strom Computer-Hardware betrei- 
ben kann, müssen die Elektronen 
noch weitere Stationen durchlau- 
fen, denn im Moment liegt noch 


eine gepulste Gleichspannung vor. 


Transformator 
Der gepulste gleichgerichetete 
Gleichstrom aus dem Primärkon- 
densator wird nun durch einen 
Transistor in ein rechteckiges 
Wechselstromsignal gewandelt, das 
eine Frequenz von 50 bis 125 KHz 
aufweist und in den Transformator 
eingespeist wird. Wie erwähnt ist 
die Frequenz notwendig, damit Ge- 
wicht und Größe des Transformat- 
ors im Rahmen eines ATX-Netzteils 
bleiben können. Die Stromkreise 
beider Wicklungen sind durch eine 
galvanische Trennung voneinander 
isoliert, sodass der angelegte hoch- 
frequente Wechselstrom an der 
Primärspule ein magnetisches Feld 
erzeugt, welches wiederum Strom 
in der Sekundärspule induziert. Der 
Umspanner wandelt also über zwei 
oder mehrere Kufperspulen, die 
über einen Eisen- oder Ferritkern 
miteinander verbunden sind und 
unterschiedlich starke Wicklungen 
aufweisen, die Eingangsspannung 


in die benötigten 12 Volt um. 


Sekundäre 
Gleichrichtung 
Nachdem der Strom die Transfor- 


mation durchlaufen hat und damit 


Infrastruktur 


auf der Sekundärseite des Netzteils 


ongeng ar Wie Netzteil-Hersteller den Wirkungsgrad 


tergewandelte Wechselstrom in 


computertauglichen Gleichstrom | m m e r weite r e rh Ö h e N 


gerichtet werden. Dies kann pas- 
Die hier abgebildeten Topologien ermöglichten es Netzteilherstellern, in den letzten Jahren, den Wirkungsgrad 


siv über Schottky-Dioden erfolgen 
immer weiter gen Maximum zu verschieben. 


oder synchron mittels eines soge- 
nannten Synchronous Rectifier, 
der anstelle von Dioden mehrere 
MOSFETs verwendet. Auch hier 
lässt sich wieder an der Effizienz- 
schraube des Netzteils drehen, da 
Schottky-Dioden einen typischen 


Spannungsabfall besitzen, der Leis- 


tungsverluste nach sich zieht. = voltage === current = === ZVS/ZCS = = = = nO ZVS/ZCS 

Solch ein typischer Spannungsdrop Durch Reduzierung der Schaltverluste (Grafik oben, LLC), synchrone Gleichrichter (SR) und die DC-DC-Wandler 

beträgt beispielsweise 0,5 V. Wenn erreichen High-End-Netzteile heutzutage Effizienzwerte von bis zu 95 Prozent. In Zukunft werden wahrscheinlich 
g andere Materialien wie Galliumnitrid, das im Gegensatz zu Silizium einen geringeren Widerstand aufweist und so 

wir nun 28 A durchleiten wollen, eine weitere Verringerung von Schaltverlusten an den FETs erlaubt. Damit wäre auch einer Erhöhung der Leis- 

dann erzeugt die Schottky-Diode tungsdichte um bis zu 40 Prozent möglich. 


14 Watt Dissipation (28 A x 0,5V). 
Bei MOSFETs ist dieser Wert viel 


geringer, da diese Transistoren über 
einen niederohmigen Einschaltwi- 

derstand von ca. 1 mQ verfügen. In = 
unserem Fall bedeutet das, dass ein 
MOSFET 0,784 Watt dissipiert und 


damit die Effizienz um 5,6 Prozent 


gesteigert wird. 


Neben diesen beiden Typen der 


Gleichrichtung gibt es auch noch Wie Transformatoren intern 
Hybridschaltungen aus MOSFETs S pan n U n g e n u mwan d el n 


und Schottky-Dioden, um so die 

Kosten bei einer gleichzeitigen Stei- Transformatoren bestehen aus zwei Spulen mit jeweils einer unterschiedlich starken Wicklung aus einem Kupfer- 
gerung der Effizienz (verglichen draht. Beide Wicklungen teilen sich einen gemeinsamen Ferrit- oder Eisenkern und sind so über diesen „magne- 
tisch“ verbunden. Die Eingangsspannung an einer der Spulen wird dann in eine veränderte Ausgangsspannung 
an der anderen Spule umgewandelt. Dabei entspricht das Verhältnis der Wicklungen zueinander dem Verhältnis 
der Spannungen. 


mit einer passiven Lösung) zu drü- 


cken. 


Entstehen der 
Spannungen 
Die Anforderungen an die unter- erimbrapule Sekundärspule 


schiedlichen Schienen im Netzteil 


Primärstrom 
h Sekundärstrom 
1, 


haben sich in den letzten Jahren 


durch moderne Hardware drastisch 


Primär 
spannung 


geändert: Durch leistungsfähigere 


u 


Sekundär 
Spannung 
u, 


Grafikkarten und Prozessoren wird 
der 12-Volt-Schiene immer mehr Be- 
deutung zuteil. Um die gewünsch- 


ten Spannungen in einem Netzteil 


Bild: Wikipedia, User Zätonyi Sándor, pcgh. 


de/Transformator; CC 3.0 SA 


zu erzeugen, werden die Schienen 
entweder in Gruppen reguliert, 


durch eine Spannungsregulation 
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Bilder: Be quiet, Infineon 
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Netzteil-Komponenten 
in der Übersicht 


In einem Netzteil kommen unterschiedliche elektronische Bauteile zum 
Einsatz. Die folgende Übersicht zeigt, welche das sind und wozu diese 
benötigt werden. 


Diode 


Die Diode ist ein Halbleiterbauelement, welches 
Strom nur in einer bestimmten Richtung durchlässt. 
Im Netzteil kommen leistungsfähige Schottky-Di- 
oden zum Einsatz, um die Wechselspannung 
gleichzurichten. Diese Art Diode besitzt einen Me- 
tall-Halbleiter-Übergang und eignet sich besonders 
für hochfrequente Spannungen und starke Ströme. 


Kondensator 

SS = | Ein Kondensator kann Energie kurzzeitig speichern; 
dies wird als elektrische Kapazität bezeichnet. Im 
Bild ist ein Elektrolytkondensator (kurz Elko) mit 
einer Kapazität von 390 Mikrofarad zu sehen. Dieser 
Kondensator dient zum Glätten beziehungsweise 

| Sieben der gleichgerichteten Wechselspannung und 

schwächt Restschwingungen ab. 


Transformator 

Ein Transformator besteht aus mindestens zwei 
Spulen und einem Ferrit- oder Eisenkern. In die 
sogenannte Primärspule wird die höhere Wech- 
selspannung eingespeist, sodass in der Sekun- 
därspule niedrigere Spannung induziert wird. 

In der Regel sind die beiden Spulen isoliert, 
sodass eine galvanische Trennung vorliegt. 


Mikrocontroller 

Ein Mikrocontroller steuert das „Zerhacken“ 
der Gleichspannung und die Leistungsfak- 
torkorrektur. Die Mikrocontroller auf der 
Zusatzplatine übernimmt gleich zwei Funk- 
tionen: Zum einen steuert er die Leistungs- 
faktorkorrektur für eine bessere Effizienz 
und zum anderen erzeugt er den Takt für 
das Zerhacken der Gleichspannung. 


Spule 
Eine Drosselspule wird hauptsächlich zur Un- 
terdrückung von Störimpulsen eingesetzt. Eine 
Spule besteht aus einem magnetisierbaren 

Kern, der mit Draht umwickelt ist. Der Strom 
durchfließt die Spule und durch die Selbst- 
induktion werden hochfrequente Wechselstro- 
mamplituden oder Störstrahlungen gedämpft | 
beziehungsweise abgeschwächt. g poo nand 


Brücke 

Die DC-DC-Brücke im Netzteil reduziert 12 
Volt Gleichspannung auf die zusätzlich not- 
wendigen 5 und 3,3 Volt. Auf dem Bauteil 
kommen ein Mikrocontroller, Spulen und 
Kondensatoren zum Einsatz. Dank dieser 
Technik sind Netzteile mit 90 Prozent Effizi- 
enz überhaupt erst möglich. Allerdings wird 
die Baugruppe nicht bei allen Netzteilen als 
zusätzliche Platine ausgeführt. 
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angepasst oder jede Leitung wird 


unabhängig voneinander erzeugt. 


Bei älteren gruppenregulierten Ge- 
räten wurden mindestens zwei Aus- 
gangsspannungen über denselben 
Quelltransformator generiert. Die- 
ser besaß dann zwei unterschied- 
lich gewickelte Sekundärspulen 
und konnte so zwei Spannungen 
ausgeben. Problematisch wird die- 
ses Design, wenn das Netzteil eine 
der beiden Spannungen korrigieren 
muss, da ein Anpassen der Voltzahl 
an der Primärspule immer eine Ver- 
änderung in beiden Spulen nach 


sich zieht. 


Sind also mehrere Ausgangsspan- 
nungen abhängig von einem Trans- 
formator, werden diese deshalb 
auch in Mitleidenschaft gezogen. 
Werden beispielsweise 12 und 5 
Volt aus einem Transformator ge- 
neriert und es kommt zu einem 
Lastungleichgewicht, weil auf der 
12-Volt-Schiene ein größerer Ver- 
baucher zugegen ist als auf der 
5-Volt-Schiene, dann hat der Cont- 
roller Probleme damit, eine saubere 
Spannungsregulation hinzubekom- 
men. Obwohl das Netzteil versucht, 
nur die 12-Volt-Schiene mit mehr 
Energie zu versorgen, wird auto- 
matisch die 5-Volt-Leitung mit an- 
gehoben, da beide Spannungen 
über einen Transformator aus dem 
Versorgungsstrom gebildet werden. 
Bei solchen Crossload-Szenarien 
schaffen es gruppenregulierte Netz- 
teile deshalb auch nicht, unterhalb 
der 5-Prozent-Toleranzgrenze zu 
bleiben, die die ATX-Norm vorgibt. 


Dagegen werden alle Spannungen 
bei unabhängig regulierten Netztei- 
len getrennt voneinander erzeugt. 
Jede Schiene bekommt in solch 
einem Netzteil ihre eigene unab- 
hängige Schaltung, sodass es nicht 
zu Spannungsabweichungen oder 
-abfällen kommt. Dieses Design fin- 


det man hauptsächlich in Enthusias- 


ten-Spannungswandlern, bei denen 
der Preis eine untergeordnete Rolle 


spielt. 


Das wohl heutzutage am häufigsten 
eingesetzte Netzteildesign ist aber 
die Spannungsregulation, auch als 
DC-DC-Wandler bekannt. Zunächst 
wird aus der Netzspannung über 
die bereits erwähnten Stationen 
in einem Netzteil eine saubere 
Ausgangsspannung von 12 Volt 
erzeugt. Damit aber die beiden an- 
deren Spannungen generiert wer- 
den können, kommen sogenannte 
Buck Converter zum Einsatz. Diese 
Baugruppen wandeln die 12 Volt 
dann auf die angestrebten 3,3 bezie- 
hungsweise 5 Volt ab und nehmen 
so direkt die erzeugten Ausgangs- 
spannung des Quelltransformators 
ab. Durch Controller werden die 
beiden geringen Spannungen über- 
prüft und eventuell nachgeregelt, 
sodass durch diesen Aufbau im 
Prinzip kein Einfluss mehr auf die 
12-Volt-Schiene erfolgt. 


Die Spannungen -12 Volt und 5VSB 
(Standby) fehlen in dieser Über- 
sicht noch. Die -12-Volt-Leitung ist 
üblicherweise über eine konventi- 
onelle Diode realisiert, da meistens 
weniger als 1 A für das Netzteil 
beziehungsweise den Rechner be- 
nötigt wird. Bei der 5-Volt-Stand- 
by-Leitung wird dagegen normaler- 
weise auf eine vollständig eigene 
Verschaltung gesetzt, die auch über 
einen eigenen Transformator ver- 
fügt, da diese Spannung kontinu- 
ierlich ausgegeben wird, selbst im 
Standby des Netzteils. 


Wir haben nun also den Werde- 
gang der Elektronen durch einen 
Spannungswandler verfolgt und be- 
obachtet, wie aus alternierendem 
Wechselstrom mit einer Spannung 
von 230 Volt computertaugliche 
3,3, 5 und 12 Volt Gleichspannung 
wurden. Auf diesem Weg wurde der 


Strom nicht nur umgewandelt, son- 


dern auch gesäubert und geglättet, 
damit er die Anforderungen an die 


sensible Hardware erfüllt. 


Top-Topologie 
LLC-Wandler 

Um die Effizienz zu steigern und 
damit sich die ausgegebenen Span- 
nungen immer mehr dem Ideal an- 
nähern, gibt es neben den bereits 
angesprochenen Topologien noch 
weitere Kniffe. 


Eine wichtige Schaltung, die auch 
bereits erwähnt wurde, ist der 
LLC-Resonanzwandler. Dieser fin- 
det in nahezu allen Titanium- und 
Platinum-Netzteilen 
da man durch das ZVS die Schaltver- 


luste minieren kann. Dieser Wand- 


Anwendung, 


ler, bestehend aus zwei Spulen (L) 
und einem Kondensator (C), wird 
innerhalb der primären Gleichrich- 
tung eingesetzt und direkt hinter 


eine Half oder Full Bridge gesetzt. 


Diese Halb- oder Vollbrückendurch- 
flusswandler haben heutzutage 
ihr Optimierungsmaximum mit 
den eingesetzten Frequenzen von 
50 bis 125 kHz erreicht. Noch hö- 
here Schwingungszahlen würden 
wieder Probleme einführen, wie 
etwa Verluste durch die Ummagne- 
tisierung des Transformatorkerns. 
Hinzu kommt ein linearer Anstieg 
der Verlustleistung an der MOSFET, 
da die Schaltgeschwindigkeit zwi- 
schen Off und On durch physikali- 


sche Grenzen beschränkt ist. 


Um dennoch die Effizienz zu erhö- 
hen, kommt der nachgeschaltete 
LLC-Resonanzwandler zum Einsatz. 
Auf der Primärseite wird nun ein 
Schwingkreis mit dem Transforma- 
tor und dem zusätzlichen Konden- 
sator erzeugt, sodass anstatt der 
Rechteckimpulse eine sinusförmige 
Welle entsteht. Dieser Schwingkreis 
gibt dann auch die Frequenz vor, 
sodass zwei MOSFETs nur noch 


die Energie liefern müssen. Erst 


dadurch ist das Zero-Voltage-Swit- 
ching überhaupt möglich. 


Der LLC-Resonanzwandler findet 
schon seit geraumer Zeit Anwen- 
dung, beispielsweise in Geräten, 
die keine dynamischen Lasten 
benötigen. Ältere Netzteile ohne 
LLC-Schaltung reagierten auf Last- 
änderung mit der Anpassung der 
Frequenz und/oder Pulsbreite. 
Steigt die Last nun in einem Netz- 
teil mit LLC-Resonanzwandler, kann 
eine Akkodomation nur über die 
Pulsbreite erfolgen, da der Schwing- 
kreis eine eigene Frequenz vorgibt. 
Dies ist aber problematisch, da so 
nicht mehr adäquat auf veränderte 
Lasten reagiert werden kann. Ei- 
gentlich würde sogar bei steigender 
Belastung die Frequenz ansteigen, 
da der Transformator Teil des Krei- 
ses ist und die Induktivität bei stei- 


gender Belastung abnimmt. 


Um dies zu umgehen, haben die 
Ingenieure von Seasonic damals 
einfach eine weitere Spule in den 
Schwingkreis eingeführt, die bei Be- 
darf zugeschaltet wird und den In- 
duktivitätsverlust des Transformat- 
ors kompensiert. Darüber hinaus 
kann dadurch die Resonanzfrequenz 
herabgesetzt werden. Das Problem 
an diesem Kniff ist die komplizierte 
Umsetzung, denn ein Mikrocont- 
roller muss hier Frequenz und Pe- 
riodendauer überwachen und im 
Bruchteil einer Sekunde aneinander 
anpassen. So entstehen mehrere 
der Leistung angepasste Stufen, die 
durch die Pulsweitenmodulation 


dann feinjustiert werden können. 


Dank der Portierung der LLC-Re- 
sonanzwandler-Topologie in mo- 
derne Netzteile lassen sich mitler- 
weile Effizienzwerte von über 90 
Prozent erreichen. Titanium- oder 
Platinum-Spannungswandler wä- 
ren ohne diese Schaltungstopologie 
bisher so überhaupt nicht möglich 


gewesen. 
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Wie sich der Wirkungsgrad 
mit der Auslastung ändert 


Der Schwachpunkt aller PC-Schaltnetzteile ist der vergleichsweise 
schlechte Wirkungsgrad bei niedriger Auslastung - egal in welcher Effi- 
zienzklasse. Beachten Sie aber, dass die Y-Achsen-Skalierung erst bei 
84 Prozent beginnt. 
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Wann sich ein neues 
Netzteil amortisiert hat 


Ein älteres Netzteil ohne Zertifikat und nur 80-prozentigem Wirkungs- 
grad bei halber Auslastung ist in unserem Beispiel bereits vorhanden 
(rote Linie mit ausgefüllten Punkten) und soll ersetzt werden. 


Einsparung durch Effizienz (500 W Ausgangsleistung, 250 W feste 
Last, 6 Std. Betrieb am Tag, 29 Cent/kWh) 


-250 


O Netzteil für 160 Euro (80 Plus Titanium) 
% Netzteil für 120 Euro (80 Plus Platinum) 
-150 E Netzteil für 80 Euro (80 Plus Gold) 

A Netzteil für 50 Euro (80 Plus Bronze) 

@ Ausgangs-Netzteil (kein 80 Plus) 


-50 
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Kosten in EUR (relativ zu Referenz-Netzteil) 
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Betriebsdauer in Jahren 
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Die 50 Euro für ein 80-Plus-Bronze-Netzteil haben sich binnen Jahres- 
frist amortisiert. Wer mehr Geld ausgibt und ein Gold-Netzteil kauft, 
muss anfangs mehr investieren, übertifft nach vier Jahren aber schon 
die Ersparnis des Bronze-Gerätes. Das Platinum-Netzteil wiederum 
holt das Gold-Gerät nach knapp sechs Jahren ein. Einzig das Titani- 
um-Netzteil ist aufgrund seines hohen Preises im Nachteil. 
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So funktioniert die 


Infrastruktur: Soundkarten 


V: knapp 27 Jahren war der 


PC noch weit weg vom heuti- 
gen Multimedia-Allekönner. Seine 
Soundambitionen beschränkten 
sich auf einen kleinen, quäkenden 
Speaker, der meist im Gehäuse des 
PCs untergebracht und mit dem 


Mainboard verbunden war. 


Erste Sound-Schritte 

Dennoch brachten es die findi- 
gen Spiele-Programmierer auch 
damals schon fertig, dem PC-Spe- 


aker mehr als nur sinusgleiche 


Mitte der 90er-Jahre als Sound-Blas- 
ter-kompatible Karten den Markt 
überschwemmten und in einer Zeit, 
als es noch keine genormten Mul- 
timedia-Schnittstellen gab, einen 


Quasi-Standard begründeten. 


Bis etwa Ende der 90er-Jahre 
enthielten die Karten oft auch 
noch einen FM-Synthesizer-Chip, 
der das Abspielen von elektroni- 
scher Musik durch Klangsynthese 
und ohne die Nutzung von Samples 
(digitalisierten Klängen) ermög- 
lichte. Der nächste, die Klangqua- 
lität verbessernde Schritt war die 
Implementierung einer einheitli- 
chen Schnittstelle zur Erweiterung 
der Soundkarte mittels Wavetable. 
Aufgrund stetig steigender Rechen- 
leistung wurden jedoch sowohl der 


FM-Synthesizer-Chip als auch die 


Beep-Beep-Töne zu entlocken. Wavetable-Erweiterungs-Option 
Ohne die digitalen Klanger- 
zeuger geht bei heutigen PC- 
Systemen nichts mehr, auch 
wenn diese heute meist auf 


Mainboards integriert sind 


Wer damals als technikbegeister- schließlich unnötig. 
ter Steppke „Test Drive 1“ auf dem 


XT gespielt hat, mag sich gefragt Funktionsweise 


Bild: Merck KGaA, Darmstadt Germany 


Hintergrund: 
USB-Soundkarten 


Sound-,Karten“ sind seit einigen Jahren auch als USB-Variante zu 
haben. Dies hat eine Reihe von Vorteilen. Dass man nicht das Gehäu- 
se öffnen muss, ist nur einer davon. In kleinen Gehäusen schützen 
USB-Soundlösungen vor Überhitzung und die Signalqualität ist etwas 
besser. Bei internen Soundkarten kann es trotz häufig sehr guter 
Abschirmung gegen elektromagnetische Impulse immer zu Störge- 
räuschen kommen; meist werden diese von dem Netzteil oder der Gra- 
fikkarte induziert. Schließlich lässt sich USB-Sound auch schnell von 
einem Gerät zum anderen transportieren; genau das spricht aber auch 
gegen USB-Sound: Viele Anwender möchten die Sound-Kabel lieber 
hinter dem PC verstauen als noch ein weiteres Gerät auf dem Schreib- 
tisch unterbringen zu müssen. 
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haben, wie man das jemals rea- 
listischer hinbekommen könnte. 
Heute wissen wir, dass Test Drive 1 
auf dem XT nicht die letzte Aus- 
baustufe der Evolution war, doch 
während der große Schritt auf dem 
3D-Sektor noch einige Jahre auf 
sich warten ließ, waren die frühen 
90er-Jahre die Geburtsstunde der 
Soundkarten - genau genommen 
der PC-Soundkarten, denn auf 
den Amiga- oder Atari-Rechnern 
gehörte die Soundkarte seit jeher 
zur Grundausstattung. Der erste 
Sound-Blaster-Chip wurde schließ- 
lich 1987 veröffentlicht und feier- 
te wegen seines Preises und seiner 
Aufrüstbarkeit bald große Erfolge. 


Sound Blaster 

Der Markenname Sound Blaster 
ist heute noch der Inbegriff ei- 
ner Soundkarte. Seinen Markter- 
folg verdankt die Karte jedoch 
nicht vorwiegend dem Original, 
sondern den vielen billigen No- 
Name-Produkten, die Anfang bis 


Die beiden entscheidenden Bautei- 
le auf einer Soundkarte sind zum 
einen der digitale Sound-Prozessor 
DSP und zum anderen die Kombi- 
nation aus Analog-Digital(ADC)- 
sowie Digital-Analog-Conver- 
ter(DAC)-Chip. Das Arbeitstier ist 
dabei der DSP. Er nimmt dem Pro- 
zessor eine Menge Last bei der Bear- 
beitung von Audiodaten ab, die von 
der Festplatte oder vom CD-ROM- 


Laufwerk kommen. 


Im DSP werden Algorithmen wie 
Filter, diskrete Fourier-Transforma- 
tion oder PID-Regelung eingesetzt. 
Elementare Operationen, aus de- 
nen der Algorithmus zusammen- 
gesetzt ist, sind dabei zum Beispiel 
die gliedweise Addition von Sig- 
nalwerten, die gliedweise Multipli- 
kation von Signalwerten mit einer 
Konstanten, die Verzögerung (Zeit- 
verschiebung) eines Signals sowie 
weitere mathematische Operatio- 
nen, die periodisch aus einem Aus- 


schnitt eines oder mehrerer Signale 


einen neuen Wert und aus diesen 


Werten ein neues Signal generieren. 


DSP und DAC 

Je mehr dieser Funktionen der 
DSP einer Soundkarte beherrscht, 
desto weniger wird die CPU damit 
belastet, was zum Beispiel in auf- 
wendigen 3D-Spielen von Vorteil 
ist, da somit mehr Rechenzeit für 
KI und Grafik zur Verfügung steht. 
Damit die bearbeiteten Audiodaten 
anschließend auf den Boxen oder 
der Soundanlage wiedergegeben 
werden können, müssen sie von 
binären 0101-Sequenzen in analo- 
ge Signale übersetzt werden. Diese 
Funktion übernimmt der DAC. Soll 
von einer externen Audioquelle 
aufgenommen werden, ist dafür 
der ADC zuständig, der die Signa- 


le digitalisiert und an den DSP zur 


Weiterverarbeitung und anschlie- 
ßenden Speicherung auf der Fest- 


platte schickt. 


Karte vs. Platine 

Heute ist die Zeit der teuren Sound- 
karten auf dem Massenmarkt längst 
vorüber. Die Soundkarte ist ein Ni- 
schenprodukt für Audioprofis und 
Klangfetischisten geworden. Der 
Rang wurde ihr bereits vor etlichen 
Jahren durch den Onboard-Sound 
abgelaufen. Meist werden kleine 
und preiswerte Codec-Chips ver- 
baut, welche über ein standardisier- 
tes Interface mit den in der South- 
bridge des Chipsatzes bzw. dem 
PCH integrierten Schnittstellen ver- 


bunden sind. 


In Sachen Codec-Chips hat sich 


heute die Firma Realtek ein Qua- 


si-Monopol erarbeitet. Auf vielen 
aktuellen Mainboards sind Chips 
oder Chip-Designs von Realtek ver- 
baut. Auch in diversen Ablegern 
wie Avance- oder ADI-Chips steckt 
Realtek-Technologie. 


AC97 und HD Audio 


Damit eine Firma wie Realtek 
überhaupt einen funktionie- 
renden Codec-Chip auf dem 


Markt anbieten konnte, bedurf- 
te es zunächst eines Standards. 
Als ACHT (Kurzform für Audio 
Codec 97) bezeichnet man In- 
tels Audiostandard, der von 
Labs 


im Jahr 1997 entwickelt wurde und 


den Intel Architecture 
hauptsächlich von Onboard-Sound- 
karten, Modems und Soundkarten 
genutzt wird. Der Standard defi- 


niert eine hochqualitative 16- oder 
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20-Bit-Audio-Architektur für den 
PC, die in einem großen Teil heu- 
tiger Desktop-PCs vorhanden ist. 
AC97 unterstützt 96 kHz Abtastrate 
in 20 Bit Stereo und 48 kHz in 20 
Bit Stereo für Mehrkanal-Aufnah- 
me und -Wiedergabe. Ab Version 
2.3 unterstützt AC97 Plug-and-Play- 
Audio für den Endnutzer. Diese 
Version gibt Auskunft über das an- 
geschlossene analoge Gerät (etwa 
Boxen, Kopfhörer, Mikrofon). 


ACHT wurde vor einigen Jahren 
vom „High Definition Audio In- 
terface“ (HDA) von Intel abgelöst; 
die Mindestanforderungen an die 
Sound-Ausgabe wurden erhöht, die 
Bandbreite beträgt nun bis zu 192 
kHz, 32 Bit und Multichannel-Au- 
dio verbesserten den Klang weiter. 


HDA ist noch heute Standard. 


Wie Sound auf dem Mainboard integriert ist 


Audiosektion eines Gigabyte G1.Sniper Z97 (von oben) 


Anschlüsse 


Wie bei einer Soundkarte sind mehrere Aus- 
und Eingänge für Kopförer, Mikrofone und 
Lautsprecher vorhanden. Gold schützt vor Kor- 
rosion, hat aber sonst keine Vorteile. 


Kopfhörerverstärker © 


Wollen Sie Kopfhörer oder ein analoges Head- 
set anschließen, ist ein Kopfhörerverstärker 
elementar. Dieser hier kann sogar individual- 
isiert werden (gesockelter Op-Amp). 


Komponenten 


Elektronische Bauteile wie diese Nichicon- 
Kondensatoren sorgen für eine stabilere 
Stromversorgung und besseren Klang. 


Soundprozessor 


Das Herz von Soundkarte und Onboard-Lösung 
ist der Soundprozessor. Oft ist dies ein Realtek- 
Codec, hier wurde aber ein Creative-Chip verbaut. 
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Bilder: Corsair, Glorious PC Gaming Race 
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So funktioniert die 
Infrastruktur; Mäuse 


LED- und Lasersensoren 


Mit der LED-Beleuchtung erkennt der Maussensor deutlich weniger 


Untergrundinformationen als mit der wesentlich feineren Laserbeleuch- 


tung. 


LED-Abtastung 


Das LED-Licht tastet weniger Un- 
tergrundinformationen ab. 


148 So funktioniert ein PC 


Laser-Abtastung 


Die Laser-Beleuchtung kann den 
Untergrund höher auflösen. 


eit die meisten modernen Be- 
So. eine grafische Be- 
nutzeroberfläche (GUI) besitzen, 
ist die Maus eine der wichtigsten 
Mensch-Maschine-Schnittstellen. 
Was mit der 1968 vorgestellten Ur- 
Maus begann, entwickelte sich dank 
immer genauerer Abtasttechniken 
und der Anpassung an die kontinu- 
ierlich modernisierten PC-Schnitt- 
stellen (RS232, PS/2, USB) zum 
hochpräzisen Steuergerät für Spiele 


und Anwendungen. 


Funktionsprinzip 

Das grundlegende Anwendungs- 
prinzip der Computermaus, deren 
Erfolgsgeschichte 1984 mit der 
GUI des Apple Macintosh begann, 
ist über die Jahre hinweg bis heu- 
te annähernd gleich geblieben: 
Mäuse setzen die Bewegungen 
auf dem Schreibtisch zweidimen- 
sional in Veränderungen auf der 
X- und Y-Achse um. Dabei nimmt 
ein Sensor im Inneren die Mausbe- 
wegungen auf, digitalisiert sie und 
überträgt diese dann über eine 
Schnittstelle an den PC. Mithilfe 
von Betriebssystemfunktionen 
wird diese zweidimensionale Bewe- 
gungsinformation in eine adäquate 
Bewegung des Mauszeigers auf dem 


Bildschirm umgesetzt. 


Optomechanische 
Mäuse 

Zwischen 1980 und Ende der 
90er-Jahre beherrschte die klassi- 
sche Kugelmaus den Markt. Das 
auch als optomechanische Maus 
bekannte Gerät ermittelt die Bewe- 
gung auf dem Tisch durch die Ro- 
tation einer Rollkugel im Gehäuse 


(siehe Bild rechts). Diese überträgt 


ihre Bewegungen auf zwei schmale 
Walzen, die seitlich und unten an 
der Kugel anliegen. Dabei ist eine 
Rolle für die X-, die andere für die 
Y-Achse zuständig. Die Achsenro- 
tation wird entweder durch eine 
Lochscheibe und einen lichtemp- 
findlichen Sensor am Ende der 
Achse oder durch Kontakte auf der 
Lochscheibe und den dazugehöri- 
gen Impulsnehmer in digitale Sig- 


nale umgewandelt. 


Der größte Nachteil dieser Tech- 
nik: Kugelmäuse sind sehr anfällig 
für Verschmutzungen, da die Kugel 
immer wieder Staub- und Dreck- 
partikel aufnimmt, die dann an der 
Mechanik haften bleiben. Des Wei- 
teren führt die Massenträgheit der 
Kugel dazu, dass bei sehr schnellen 
Bewegungen oder glatten Unter- 
gründen der „Grip“ der Kugel ab- 
reißt. 


Bis heute im Einsatz: 
optische Abtastung 

Die wohl wichtigste Weiterent- 
wicklung der Maus-Technik ist der 
Wechsel zur direkten optischen 
Untergrundabtastung. Hier wird 
der durch eine Lichtquelle beleuch- 
tete Bereich unter der Maus von 
einer Art Mini-Kamera erfasst. Die 
Richtung und Geschwindigkeit der 
Bewegungen berechnet dann ein 
zur Kamera gehöriger digitaler Sig- 
nalprozessor aus dem Unterschied 
zwischen nacheinander aufgenom- 
menen, in Graustufen vorliegenden 
Bildern. 


Als Berechnungs-Algorithmus wird 
„optischer Fluss“ verwendet. Für 
die Beleuchtung des Untergrunds 
ist entweder eine LED- oder eine 
Laserdiode verantwortlich. Dabei 
bietet die Laser-Beleuchtung dank 
des sogenannten „Speckle-Effekts“ 
sowie der sich zeitgleich mit den La- 
sermäusen etablierenden Kombina- 
tion aus hochauflösenden Sensoren 


und Linsen eine feinere Auflösung 


des Untergrunds. Im Gegensatz zu 
ihren LED-Pendants funktionieren 
Lasermäuse sogar auf sehr glat- 
ten Oberflächen ohne erkennbare 
Struktur problemlos. Sowohl Micro- 
soft als auch Logitech entwickelten 
beide Techniken weiter. So arbeiten 
zum Beispiel Logitechs Lasermäuse 
mit Darkfield-Laser-Tracking-Tech- 


nologie seit 2009 sogar auf Glas. 


Kommunikation mit 
dem PC 

Mit dem 1987 von IBM entwickel- 
ten PS/2-Anschluss, der synchron/ 
seriell arbeitet und bei dem die 
Informationen bitweise von der 
Maus an den Rechner übertragen 
werden, sind aktuelle Geräte nicht 
mehr ausgestattet. Sie kommunizie- 
ren via USB-Anschluss mit dem PC. 
Bei USB kommen insgesamt vier 
Kabel (PS/2: eine Datenleitung) 
zum Einsatz, von denen zwei zur 
Datenübertragung und zwei zur 
Versorgung der angeschlossenen 
Komponente mit Strom dienen. So 
können USB-Geräte im laufenden 
Betrieb am PC angeschlossen und 


entfernt werden. 


Auf den miteinander verdrillten Da- 
tenkanälen werden ein Signal sowie 
eine invertierte Variante des Signals 
gesendet. Aus der Differenz dieser 
beiden Signale bildet der Empfän- 
ger die gesendete Information. 
Kabellose Mäuse funktionieren in 
puncto Abtastung wie ihre verdrah- 
teten Brüder. Allerdings muss eine 
drahtlose Maus eine eigene Strom- 
versorgung sowie einen Sender 
besitzen, der die Signale via Funk/ 
Infrarot (27-MHz-Band) oder Blue- 
tooth (2,4-GHz-Bereich) an die per 
PS/2 oder USB mit dem PC verbun- 


denen Basisstation überträgt. 


Dpi- und Polling-Rate 

Die am häufigsten verbreitete Maß- 
einheit für die Leistung des Maus- 
sensors ist Dpi (dots per inch). Der 


Dpi-Wert gibt an, wie viele Schritte 


(Pixel) eine Maus innerhalb eines 
Zolls 2,54 cm) auf dem Bild- 
schirm zurücklegt. Zur Verdeutli- 
chung: Eine 1.600-Dpi-Maus bewegt 
sich pro Zoll 1.600 Pixel auf dem 
Monitor - ohne Beeinflussung der 
Mausbewegung und -beschleuni- 
gung durch die zwischengeschalte- 
te Software. 


Ein weniger verbreiteter, aber tech- 
nisch korrekter Terminus für die 
Abtastrate ist Counts per Inch (Cpi). 
Cpi bestimmt die Zahl der Counts, 
die der Sensor aufnimmt, wenn das 
Eingabegerät physikalisch um ei- 
nen Zoll verschoben wird. Der PC 
erfasst die Counts als Bewegungs- 
daten und setzt sie auf dem Desk- 
top des OS sowie bei Spielen mit 
Maussteuerung als Bewegung einer 


bestimmten Pixelmenge um. 


Polling Rate 

Die Polling-Rate - auch als Signal- 
rate oder Abtastgeschwindigkeit 
bekannt - gibt im Gegensatz zum 
Dpi-/Cpi-Wert an, wie viele Abfra- 
gen pro Sekunde die Maus bei Be- 
wegungsänderung und Betätigung 
der Tasten über den USB-Port und 
den Treiber an den PC sendet. Je 
häufiger diese Meldungen an den 
Rechner gehen, desto zügiger kann 
dieser Bewegungen oder das Auslö- 


sen der Tasten weiterverarbeiten. 


Eine höhere Polling-Rate ist also 
tendenziell „besser“, wenn es auf 
eine sehr schnelle sowie präzi- 
se Reaktion der Maus in Spielen 
ankommt. Standardmäßig ist via 
USB-2.0-Anschluss lediglich eine 
Abtastgeschwindigkeit von 125 
Hertz möglich. Topmäuse werden 
dagegen mit sehr leistungsstarken 
(Laser-)Sensoren ausgestattet sowie 
mit speziellen Treibern geliefert, 
die eine Polling-Rate von bis zu 
2.000 Hz ermöglichen. Dabei kön- 
nen Nutzer die Einstellung der Sig- 
nalrate in der Regel in der Software 


vornehmen. 


Infrastruktur 


Bei der Optomechanik gibt die Kugel (1) die Bewegung an die Achse samt 
Lochscheibe (2) weiter. Durch die LED (3) und den Fotosensor (4) ermittelt 


die Maus die Richtung. 


Bei der Lasermaus berechnet der Prozessor (2) mit per Sensor (1) auf- 
genommenen Bildern Richtung und Bewegung. Ebenfalls im Bild: Profil- 


speicher (3) und Mausrad-Encoder (4). 


> 
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In der Mitte des Chips befindet sich die kleine Kamera, die Veränderungen 
der Oberfläche erkennt und an den Steuerchip weitergibt. 
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Bild: Roccat 


Infrastruktur 


So funktioniert die 
Infrastruktur: Tastaturen 


Die meisten Tastaturen besitzen eine sogenannte Dome-Switch-Matte oder 
einzelne Gummidome, deren elektrisch leitende Unterseite auf die Platine 
gepresst wird und zwei Kontakte überbrückt. Die Rückführung der Taste er- 
folgt ohne spezielle Mechanik. 
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uch wenn immer neue Tasta- 
A auf den Markt 
kommen - das grundlegende Funk- 
tionsprinzip des Keyboards hat sich 
in den letzten 20 Jahren kaum geän- 
dert. 


Aufbau & Mechanik 
Bei den meisten PC-Tastaturen 
befindet sich im unteren Teil des 
Gehäuses eine leitfähig bedruckte 
Polyesterfolie. Diese ist mit einer 
Platine verbunden, auf welcher der 
Steuerchip sowie bei Modellen mit 
Makro- und Profilverwaltung ein 
Speicherchip gelötet ist. Auf der Fo- 
lie mit den Leiterbahnen befindet 
sich eine Matte mit sogenannten 
Gummidom-Schaltern - bei einigen 
Keyboards kleben die Gummidome 
auch einzeln auf der Spezialfolie. 
Beim Herunterdrücken der Tasten 
wird der auf der Unterseite elek- 
trisch leitende Gummidom auf die 
Polyesterfolie gepresst und über- 
brückt so zwei Kontakte. Zu diesem 
Zweck besitzt die Taste auf der Un- 
terseite einen Dorn, der im oberen 
Gehäuse (Chassis) befestigt ist und 
durch Führungen an Ort und Stelle 
gehalten wird - Tasten, die mehr als 
einen Rasterplatz belegen, besitzen 
zusätzlich Bügel, die einen Lageaus- 
gleich gegen Verkanten unterstüt- 
zen. Der durch den Tastendruck/ 
das Pressen des Gummidoms auf 
die Folie entstehende Impuls wird 
an den Steuerchip weitergegeben, 
der die Information dann zum PC 
weiterleitet. 

Bei Geräten mit flachen Tasten 
(zum Beispiel bei vielen Note- 
book-Tastaturen) werden die Tas- 


ten beim Druck auf den Gummi- 


dom durch eine Scherenmechanik 
geführt. Eine in der Herstellung 
deutlich teurere Alternative zu Tas- 
taturen mit Gummidom-Schaltme- 
chanismus sind mechanische Pen- 
dants, deren Tasten bespielsweise 
einen mit einer Blattfeder versehe- 
nen mechanischen Schalter betäti- 
gen (Cherry-MX-Schalter) oder eine 
Feder innerhalb der Tastenführung 
die 


und dann einen kleinen Hammer 


herunterdrücken, einknickt 
auslöst, der den elektrischen Kon- 
takt auf der Polyesterfolie herstellt 
(Buckle Springs). Des Weiteren gibt 
es Geräte mit kapazitiven Kontak- 
ten, elektromechanischen Kurzhub- 
tasten, Karbonkontakten mit Kunst- 
stoffstößel und Silikonhaube, einer 
flexiblen Folientastatur mit Silikon- 


überbau oder Silikontasten. 


Die Luxusklasse 

Mechanische Keyboards sind bei 
Vieltippern, aber auch bei Spielern 
inzwischen wieder sehr beliebt. Die 
robusten Geräte haben in den ver- 
gangenen Jahren eine Renaissance 
erlebt. Fans mechanischer Tastatu- 
ren lieben deren ganz speziellen 
Anschlag und Druckpunkt. Anstatt 
wie bei der Gummidom-Mechanik 
die Taste vollständig herunterdrü- 
cken zu müssen, sind mechanische 
Tastenschalter so angelegt, dass sie 
bereits anschlagen, bevor die Taste 
komplett durchgedrückt wird. Das 
spart Kraft und beugt Ermüdungs- 
da wirklich 


nur der in der Maßeinheit Gramm 


erscheinungen vor, 


angegebene Aktivierungsdruck für 
das Auslösen des Schalters benötigt 
wird. Für eine taktile Rückmeldung 
sorgt eine Blattfeder mit einem 


Druckpunkt. 


Tastaturtypen 
Der bei mechanischen Tastenbret- 
tern am häufigsten zu findende 
Cherry-MX- 
Schalter, den es in verschiedenen 
die 


bezüglich des Aktivierungsdrucks 


Schaltertyp ist der 


Farbkodierungen gibt, sich 


und der taktilen Rückmeldung un- 
terscheiden. Beispielsweise besitzt 
die blaue und von Vielschreibern 
besonders geschätzte Variante ei- 
nen Aktivierungsdruck von ca. 50 g 
und verfügt über eine taktile Rück- 
meldung inklusive Klickgeräusch. 
Schwarze, von Spielern bevorzugte 
„Cherrys“ dagegen arbeiten linear 
und geben kein akustisches Feed- 
back (Aktivierungsdruck: ca. 60 g). 
Neben weiteren Cherry-Schaltern 
in Braun, Transparent und Rot 
gibt es noch die sogenannte Buck- 
le-Springs-Technik sowie ALPS- und 
TOPRE-Schalter. 


Matrix-Technologie 
Da Keyboards bereits im Stan- 
dard-MF2-Tastenlayout über 104 


Tasten verfügen, ist es wenig 
sinnvoll und in der Fertigung zu 
kostspielig, jede Taste mit einem 
einzelnen Kabel zum Mikrocont- 
roller, dem Steuerchip, zu leiten. 
Aus diesem Grund setzte sich die 
Matrix-Technologie durch, bei der 
die elektrischen Leitungen auf der 
Polyesterfolie in Reihen und Spalten 
angeordnet sind - beim MF2-Key- 
board mit 104 Tasten sind das zum 
Beispiel 13 Spalten und acht Reihen. 
Im Betrieb überprüft ein Mikrocon- 
troller in der Tastatur regelmäßig 
alle Reihen und Spalten auf Verände- 
rungen im elektrischen Fluss. Durch 
den Druck einer Taste wird eine be- 
stimmte Zeile mit einer bestimmten 
Spalte elektrisch verbunden und der 
Steuerchip kann durch die Beschaf- 
fenheit des Signals diesem einen 


einzelnen Tastendruck zuweisen. 


Problemfall: Ghosting 

Je nach Bauart des Tastenbretts und 
in Abhängigkeit von der Anordnung 
der Tasten in der Matrix erkennt das 
Gerät idealerweise alle gleichzeiti- 
gen (n-Key-Rollover), im schlech- 
testen Fall maximal zwei simultane 
Tastendrücke (2-Key-Rollover). Ge- 
rade bei Geräten mit 2-Key-Rollover 


überschneiden sich die verschie- 


denen Leitungen der Matrix. Wer- 
den hier drei Tasten gleichzeitig 
gedrückt, registriert der Controller 
irrtümlicherweise einen vierten 
Tastendruck, ein Phänomen, das als 
(Key-)Ghosting bezeichnet wird. 
Moderne Tastaturen erkennen den 
Ghosting-Effekt und ignorieren den 
dritten Tastendruck - man spricht 
vom Key-Jamming. Für PC-Spieler 
ist das besonders ärgerlich, wenn 
sie neben der Bewegung auch die 
Waffenwahl und Sprünge über Tas- 
tenkombis ausführen. Eine Gegen- 
maßnahme ist es, die Tastenmatrix 
so anzuordnen, dass es Zonen gibt, 
in denen die beim Spielen am häu- 
figsten benötigten Tastenkombina- 
tionen keine Erkennungsprobleme 
verursachen, sprich sich die Anord- 
nung der Leitungen für Tasten auf 


der Matrix nicht kreuzen. 


PS/2 kontra USB 


Kommuniziert der Tastatur-Con- 
troller per PS/2-Anschluss mit dem 
Rechner, sendet er sowohl beim Be- 
tätigen als auch Loslassen der Taste 
einen Code, der im PC einen Inter- 
rupt auslöst. Die Interrupt-Behand- 
lungsroutine wertet den Scancode 
der gedrückten Taste aus, ermittelt, 
ob zusätzlich Modifier-Tasten (Shift/ 
Strg/Alt) aktiv sind, und speichert 
das Ergebnis anschließend im Tas- 
taturpuffer ab. Mit Software-Inter- 
rupts arbeitet das OS diesen Puffer 
dann ab und verknüpft den Scan- 


code mit einem Zeichen (Keycode). 


Am USB-Anschluss behandelt der 
Host-Controller die Tastatur als Hu- 
man-Device-Interface-Gerät. Anders 
als Geräte mit PS/2-Anschluss sen- 
det die USB-Tastatur nicht jedes Mal, 
wenn der Nutzer eine Taste betätigt 
oder loslässt, sogenannte Make- 
bzw. Break-Codes. Sie transferiert 
einen Datenblock mit Statusinfor- 
mationen (Flags) für die Umschalt- 
tasten und Bytes für die sonstigen 
Tasten, in dem der gesamte aktuelle 


Tastatur-Status angegeben wird. 


Infrastruktur 


Tasten mit Scherenmechanik besitzen eine 
scherenartige Führung, die beim Nied- 
erdrücken wie ein Liegestuhl zusammen- 
klappt. Diese Mechanik besteht aus zwei 
geschlossenen Bügeln, die an den Enden 
über Gelenke miteinander verbunden sind. 


Mechanische Cherry-MX-Schalter (hier Typ Blau mit Click) verfügen über 
eine Blattfeder mit einem Druckpunkt, der eine bestimmte Kraft zur Über- 
windung der signal- oder kontaktlosen Ruhelage erfordert. Dadurch erhält 
der Nutzer eine taktile Rückmeldung. 


Bei der Buckle-Springs-Technik (IBM Model M) knickt die Feder im Inneren 
der Tastenführung nach einer gewissen Druckdistanz seitlich ein. Dadurch 
schlägt ein Hammer an der Unterseite der Führung auf die Membranfolie und 
stellt so elektrischen Kontakt her. 
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e 


Aufbau einer Spieletastatur 


Keycaps 


Oberes Gehäuse 


Dome-Switch-Matte 


Platine mit MCU + Speicher 


Daumentasten (Schalter) 


Leitfähig bedruckte Polyesterfolie 


Metallplatte 


Unteres Gehäuse 


Gummifüße, Ständer, Produktlabel 


Tastaturmatrix im Detail 


Vor allem beim Spielen kann es vorkommen, dass mehrere Tasten gleichzeitig gedrückt werden. Abhängig von der Anordnung der Tasten in der Matrix 
(Platine mit in Reihen und Spalten angeordneten elektrischen Leitungen) kommt es dabei zu Fehlerkennungen. Für unser Beispiel verwenden wir eine 
Vier-Tasten-Tastatur mit zwei Reihen und zwei Spalten. Hier liegen A und B auf der gleichen Reihe (links). Drückt man nun A und C gleichzeitig (rechts), 
erkennt der Tastatur-Controller die Eingabe B nicht mehr. 
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Vi gehören zweifellos zu 
den größten Innovationen des 
PC-Marktes der vergangenen Jahre. 


Doch der große Durchbruch lässt 


weiter auf sich warten. Warum? 


Das Konzept hinter VR 

Die Idee der VR-Brillen ist bereits 
sehr alt. Im Kern geht es darum, 
das Sichtfeld des Nutzers möglichst 
vollständig mit Bildern einer virtu- 
ellen Welt zu füllen. Am einfachsten 
gelingt das, indem man dem Pro- 
banden ein Display möglichst nahe 
vor das Auge setzt und den restli- 
chen Sichtbereich möglichst gut ab- 
dunkelt. Es liegt also nahe, das Gan- 
ze in Form einer blickdichten Brille 


zu realisieren. 


Parallax-Effekt 

VR-Brillen versuchen dem Träger 
vorzugaukeln, er befinde sich wirk- 
lich in der dargestellten Welt und 
unterstützen diese Illusion, indem 
sie das gezeigte Bild gemäß der Nei- 
gung und der Drehung des Kopfes 
in Echtzeit anpassen. Zudem simu- 
liert die Brille die leicht abweichen- 
de Perspektive (Parallaxe), die je- 
des Auge durch seine zur Mitte des 
Kopfes versetzten Lage hat, indem 
sie den Träger der Brille mit einem 
für jedes Auge leicht angepassten 
Bild versorgt. Das kann mittels ei- 
nes geteilten oder zwei getrennten 
Displays erfolgen. Das Gehirn ist 
aufgrund dieser Abweichungen in 
der Perspektive zum räumlichen Se- 


hen in der Lage. 


Das Sichtfeld 

Maßgeblich für den gefühlten Re- 
alitätsgrad einer VR-Anwendung 
ist das Sichtfeld. Dieses wird als 
Winkel angegeben (beispielsweise 
105°) und beschreibt, welchen Teil 
einer Szenerie beide Augen maxi- 
mal durch die Brille angezeigt be- 
kommen. Vereinfacht gesagt, ist die 
Darstellung umso realistischer, je 
besser dieses Sichtfeld der natürli- 


chen Wahrnehmung der Augen an- 


Infrastruktur 


So funktioniert die 
Infrastruktur: VR-Brillen 


gepasst ist (Details siehe Kasten auf 
der folgenden Doppelseite). Ältere 
3D- oder VR-Brillen krankten oft da- 
ran, dass das Sichtfeld zu klein und 
damit auch die Ränder (Das „Ende“ 


der Brille) klar erkennbar waren. 


Ein neuer Anlauf 

Seit einigen Jahren ist vor allem eine 
VR-Brille in aller Munde, und zwar in 
erster Linie aus dem oben genann- 
ten Grund: Das Sichtfeld wurde so 
gewählt, dass Ränder kaum noch er- 
kennbar sind, der Grad des „Eintau- 
chens“ in die Spielwelt (Immersion) 
ist hier besonders hoch. Die „Oculus 
Rift‘-Brille wurde von der Öffent- 
lichkeit sehr positiv aufgenommen, 
die Entwicklerfirma ein Jahr später 


von Facebook gekauft. 


Die VR-Technik 

Der wichtigste Schwachpunkt der 
Technik ist die Auflösung. Die wohl 
prominentesten Modelle, die HTC 
Vive und die Oculus Rift, nutzen nur 
ein einzelnes LCD-Panel, wovon je 
eine Hälfte für ein Auge zuständig 
ist. Bei der ersten Version von Ocu- 
lus Rift hatte das Panel eine Auflö- 
sung von 1.280 x 800 Pixel, womit 
pro Auge nur 640 x 800 Pixel zur 
Verfügung standen. Die Erfahrun- 
gen mit diesem Gerät waren zwar 
eindrucksvoll, die Qualität der Dar- 
stellung aber insgesamt bescheiden, 
da durch die Vergrößerung die Pi- 
xelzwischenräume als sogenanntes 
„Fliegengitter“ und sogar die Sub-Pi- 


xel sehr deutlich zu erkennen waren. 


Ein Tribut an 
die Vernunft 
Aktuelle VR-Brillen lösen mit 2.160 


x 1.200 Pixeln auf, was pro Auge 


Kurzes VR-Glossar 


Die wichtigsten Begriffe im Zusammenhang mit VR im Überblick 


Sichtfeld 

Das Sichtfeld be- 
schreibt den von 
einem optischen 
System abgedeckten 
Raumbereich und 
wird umgekehrt auch | 
für den Darstellungs- 
winkel von Head 
Mounted Displays 
genutzt. Es berück- 
sichtig weder die 
wechselnde Emp- 
findlichkeit der un- 
terschiedlichen Sichtbereiche des menschlichen Auges, noch dessen 
Beweglichkeit und auch nicht die Nutzung weiterer Systeme in Form 
eines zweiten Auges. 


Gesichtsfeld 


Das Gesichtsfeld vernachlässigt weiterhin die Möglichkeit von Augen- 
bewegungen, bewertet aber die geringere Empfindlichkeit des peri- 
pheren Sichtvermögens und optional auch die Nutzung zweier Augen. 
In letzterem Fall kann das Gesichtsfeld weiter in einen binokularen 
Bereich mit stereoskopischer 3D-Wahrnehmung und Bereiche, die nur 
von einem Auge wahrgenommen werden, unterteilt werden. Aufgrund 
des großen Überlappungsbereiches der Sichtfelder beider Augen beim 
Menschen liegen diese monokularen Abschnitte aber im peripheren 
Teil der jeweiligen Sichtfelder und spielen somit für Spieler eine unter- 
geordnete Rolle. 


Blickfeld 


Blickfelder berücksichtigen zusätzlich Augenbewegungen, wobei auch 
hier eine Unterscheidung in das Blickfeld jedes einzelnen Auges, das 
gemeinsame Blickfeld beider Augen und in den darin enthaltenen bi- 
nokularen Bereich mit stereoskopischem Sehen möglich ist. Hierbei 
spielen auch nicht-optische Körpermerkmale eine Rolle, so begrenzt 
zum Beispiel die Nase das Blickfeld der Augen auf die jeweils andere 
Körperseite. Von besonderer Bedeutung für die VR-Brillen-Entwicklung 
ist das Gebrauchsblickfeld. Dieser vergleichsweise kleine Bereich ist 
auch vom individuellen Sehverhalten abhängig und beschreibt den Teil 
des Blickfelds, der im Alltag zur Fokussierung von Objekten genutzt 
wird, bevor man an Stelle der Augen den gesamten Kopf schwenkt. 


Umblickfeld 


Wird neben den Augen auch der Kopf bewegt, so spricht man vom 
Umblickfeld. Dieses ist bei den meisten Menschen nur im unteren Be- 
reich begrenzt, wo der eigene Körper die Sicht einschränkt, während 
Kopf- und Augenbewegungen in der horizontalen zumindest eine peri- 
phere 360°-Erfassung der Umgebung erlauben. 


Gebrauchsblickfeld (20°, beide Augen) 


Gesichts- 
feld (190°) 


Kopf 
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Wie VR-Brillen 
Rechenleistung sparen 


Die Verzerrung des Sichtfeldes bei VR bietet eine gute Möglichkeiten 
zum Einsparen von Rechenleistung: Durch die Kugelform sind Teile des 
rechteckigen Bildes gar nicht erst sichtbar und können so bei der Dar- 
stellung ausgespart werden. Valve gibt einen Einblick, wie das genau 
funktioniert 


Hier sehen Sie ein einen für VR-Brillen passenden Ausschnitt. 
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effektiv 1.080 x 1.200 Bildpunkte 
ergibt. Doch auch dies reicht noch 
nicht für eine perfekte Darstellung. 
Ein Fliegengitter ist immer noch 
sichtbar, auch wenn es inzwischen 


deutlich feiner geworden ist. 


Jemand, der nicht so tief in der 
VR-Materie steckt, fragt sich viel- 
leicht, warum man dann nicht ein- 
fach Panels mit höherer Auflösung 
verbaut. Die Hersteller haben sich 
hier schlicht vom Pragmatismus lei- 
ten lassen, denn die niedrige effek- 
tive Bildpunktanzahl täuscht über 
den notwendigen Rechenaufwand 
hinweg. Auch wenn die effektive 
Auflösung beider Brillen niedrig 
wirkt, entspricht die echte Auflö- 
sung eher der eines WQHD- als der 
eines Full-HD-Display. 


Ein Spiel in WQHD kann von moder- 
nen Oberklasse-Grafikkarten in den 
meisten Fällen noch schnell genug 
dargestellt werden, jedoch sind bei 
VR höhere Anforderungen zu erfül- 
len. So muss die Verzögerung zwi- 
schen der Kopfbewegung möglichst 
schnell umgesetzt werden, um Übel- 


keit beim Anwender zu verhindern. 


Übelkeit und 
Schwindelgefühle 


Viele Menschen neigen nämlich 
zu Schwindelgefühlen oder Übel- 
keit, wenn das Geschene nicht mit 
den vom Gleichgewichtssinn an 
das Gehirn übermittelten Wahr- 
nehmungen übereinstimmt. Dieses 
Leiden kennt man gemeinhin als 
Bewegungskrankeit (Kinetose). Als 
Auslöser reichen oftmals bereits 
Zehntel- bis Millisekunden Abstand 
zwischen Kopfdrehung und Reakti- 
on des Bildes. VR-Brillen lösen die- 
ses Problem zumindest teilweise, 
indem sie schnelle Panels mit 90 Hz 
statt der für LC-Displays üblichen 60 
Hz einsetzen. Die 1,5-fache Bildwie- 
derholrate fordert deswegen auch 
eine entsprechende Steigerung der 


Rechenleistung, um bei den berech- 


neten Frames pro Sekunden mithal- 


ten zu können. 


Des Weiteren entspricht die native 
Auflösung der VR-Brillen nicht der 
internen Renderauflösung: Die Lin- 
sen stauchen das Bild an bestimm- 
ten Stellen, weshalb der Ausschnitt 
etwas höher als die native Auflösung 
gerendert werden muss. Sowohl Val- 
ve als auch Oculus empfehlen einen 
Faktor von 1,4, was in einer finalen 
Renderauflösung von 3.024 x 1.680 
Pixel entspricht - womit die Brillen 
schon deutlich über dem Rechen- 
aufwand von WOHD liegen. 


Kantenglättung 

Wegen dem großen Winkelmaß der 
sichtbaren Pixel sowie durch die 
ständige Bewegung des Kopfes ist 
Aliasing ein ständiger und auffälli- 
ger Begleiter der VR-Brillen. Valve 
sieht deshalb MSAA 4x als Mindest- 
qualität vor, empfiehlt nach Mög- 
lichkeit aber MSAA 8x. Diese Zahlen 
verdeutlichen, dass die notwendige 
Rechenleistung nicht weit unter 
jener liegt, die für UHD bei 60 Fps 
notwendig ist. 


Alternative Eye Tra- 
cking? 

VR-Brillen sind mit Preisen bis zu 
600 Euro (noch) recht teuer, der 
Zwischenweg des Eye-Tracking 
ist wesentlich günstiger zu haben. 
Eye-Tracking ist eine Technik, bei 
der nicht die komplette Kopfbewe- 
gung in das Spiel übertragen wird, 
sondern die Blickrichtung der Au- 
gen als zusätzliche Steuerungshilfe 
für den PC dient. Der Anwender 
eines solchen Systems steuert die 
Aktionen also damit, indem er Din- 
ge auf dem Bildschirm ansieht. Die 
Kernkomponente ist hierbei ein 
stabförmiges Kameramodul, das 
mit insgesamt drei Infrarot-LEDs 
ausgestattet ist. Dieses muss an der 
Bildschirm-Unterseite magnetisch 
an einem selbstklebenden Metall- 


streifen befestigt werden. 


F Software 
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Software 


So funktioniert Software: 
Künstliche Intelligenz 


Überblick: KI-Erfolg 


Seit 2010 gibt es den „ImageNet“-Wettbewerb, bei dem künstliche 
Intelligenzen ein vorgegebenes Set von Bildern möglichst korrekt er- 
kennen sollen. Innerhalb von fünf Jahren konnten bessere Ergebnisse 
erzielt werden, als bei der menschlichen Kontrollgruppe. 2012 nutzte 
AlexNet ein Künstliches neurales Netz (genauer gesagt: ein Convoluti- 
onal Neural Network, siehe folgende Doppelseite) und markierte damit 
einen Durchbruch 
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Wo: es um mathematische 
Gleichungen geht, sind 
Computer in der Lage, diese im 
Bruchteil einer Sekunde mit Leich- 
tigkeit zu lösen. An vermeintlich 
einfachen Aufgaben scheitern sie 
aber, dem intuitiven Erfassen und 
Erkennen der Umwelt beispielswei- 
se. Doch das könnte sich in Zukunft 


ändern. 


Intuitive Wahrnehmung 

Wie erklärt man einem Computer 
intuitiv ablaufende Prozesse der 
Wahrnehmung? Mathematisch ist 
das Identifizieren von Gesichtern, 
Objekten, Sprache oder Text nur 
äußerst schwer beschreibbar, auch 
weil Menschen dies reflexartig erle- 
digen, ohne einen Gedanken daran 


zu verschwenden. 


Begründet liegt dies in sieben Milli- 
onen Jahren Evolution: Je schneller 
Freund und Feind erkannt werden 
konnten, desto größer waren die 
Überlebenschancen und damit der 
Fortbestand der Spezies. Das ist 
übrigens auch der Grund für das 
Phänomen der Pareidolie, das jeder 
schon mal beobachten durfte: Hier 
erkennt man Gesichter in Gegen- 
ständen, wo eigentlich gar keine 
sind - nur „passend“ angeordnete 


Strukturen. 


Deep Learning 

Eben weil es arithmetisch so 
schwer zu beschreiben ist, versu- 
chen Wissenschaftler mit sogann- 
ten Deep-Learning-Algorithmen 
gerade, künstliche Intelligenz dazu 
zu bringen, ähnlich wie Menschen 
sensorische Rohinformation zu ver- 


arbeiten. Erzielt wird das, indem 


man zunächst die Welt als ein Hie- 
rarchiesystem aus Konzepten ver- 
steht, in dem sich selbst die komple- 
xesten Szenarien stets aus Blöcken 
simpler Konzepte aufbauen lassen. 
Programme sollen damit in Zukunft 
Wissen aus Erfahrung generieren, 
indem unbekannte komplexe Kon- 
zepte soweit zerlegt werden, bis sie 
für einen Computer fassbar werden 
und dann verstanden werden kön- 


nen. 


Selbstoptimierung 

Damit werden Computerprogram- 
me bald in der Lage sein, sich selbst 
zu optimieren. Viel wichtiger ist 
aber, dass sie bei Datensätzen auf 
einen menschlichen Interpreten 
verzichten können, der jede Infor- 
mation für den Computer spezifi- 
ziern müsste. Im Zuge des rasan- 
ten Wachstums des Internets der 
Dinge und der damit einhergehen- 
den massenhaften Erzeugung von 
sensorischen Rohdaten durch die 
digitale Erfassung der physischen 
Welt scheint dieser Lernprozess un- 
abdingbar, um der Datenflut über- 


haupt Herr zu werden. 


Überträgt man die einzelnen Bezie- 
hungen der Konzepte zueinander 
in ein Diagramm, bekommt man 
eine tiefgehende und vielschichtige 
Visualisierung geboten. In Zukunft 
werden wir also noch mehr aus die- 
sem Fachbereich der Computerwis- 
senschaften hören, weshalb wir Ih- 
nen auf den folgenden Seiten einen 


kleinen Überblick geben wollen. 


Maschinelles Lernen 

Zunächst sollte geklärt werden, was 
man überhaupt unter maschinellem 
Lernen (ML) versteht, da Deep Lear- 
ning als Teilgebiet des ML sich viele 
Prinzipien und Techniken zunutze 


macht. 


Den Begriff des maschinellen Ler- 
nens prägte Arthur Samuel, ein Pio- 


nier auf dem Gebiet der künstlichen 


Intelligenz, bereits 1959. Damals 
führte er Studien zur Mustererken- 
nung in Datensätzen mit Computer- 
programmen durch. Computer ge- 
wannen bei seinen Experimenten 
damals aus einem Pool an Beispie- 
len Wissen, da sie innerhalb der Da- 
ten Muster und Gesetzmäßigkeiten 
korrekt erkannten und diese dann 
auf unbekannte Fragestellungen an- 
wenden konnten. 


Man kann also davon sprechen, 
dass maschinelles Lernen Compu- 
ter dazu befähigt, aus Erfahrung 
Wissen zu generieren, und dadurch 
eine datengestützte Transferleis- 
tung erbracht werden kann. Damit 
lassen sich unbekannte Probleme 
lösen - wohlgemerkt, ohne vorher 
spezielle Instruktionen bekommen 


zu haben. 


Künstliche 

neuronale Netze 

Deep Learning macht sich ähnliche 
statistische Techniken zunutze wie 
das maschinelle Lernen. So kann auf 
ähnliche Weise Wissen aus einen 
Datenset an Beispielen gewonnen 
werden. Deep-Learning-Algorith- 
men versuchen aber, die Welt als 
ein hierarchisches System aus Kon- 
zepten zu verstehen. Dadurch sind 
deutlich mehr Datensätze nötig, 
weil auch ein größeres Kontingent 
an Einzelheiten verstanden wer- 
den muss, um beispielsweise einen 
Hund von einem Wolf oder Fuchs 


zu unterscheiden. 


DL-Algorithmen werden dadurch 


nicht nur genauer als „reine“ 
ML-Programme, sondern erreichen 
in der Bilderkennung mittlerwei- 
le ähnlich gute oder sogar bessere 
Resultate als ein Mensch. Erreicht 
wird das über künstliche neurona- 
le Netze (KNN), die Strukturen im 
menschlichen Gehirn nachahmen. 
In die Computerwissenschaften 
eingeführt wurde der Begriff „Deep 


Learning” übrigens schon vor mehr 


als 30 Jahren, von der Forscherin 
Rina Dechter. Wieso erleben wir 
also gerade jetzt so einen enormen 


Hype um das Thema? 


Big Data 

Um Deep Learning effizient zu be- 
treiben, benötigt man natürlich 
zunächst einmal unheimlich große 
Datenmengen, die von einem Al- 
gorithmus untersucht werden kön- 
nen. Diese riesigen Datensätze sind 
besser bekannt als Big Data, weil sie 
keine Auswertung mit herkömm- 
lichen Mitteln der Datenverarbei- 
tung zulassen und außer groß auch 
zu komplex oder zu schnelllebig 


sind. 


Seit Kurzem kann diese Datenflut 
überhaupt erst generiert und vor 
allem gespeichert werden. Die un- 
aufhörliche Weiterentwicklung grö- 
ßerer Speicherkapazitäten legte um 
das Jahr 2002 herum den Grund- 
stein für Big Data, als erstmals mehr 
Information digital abgespeichert 


wurde als anolog. 


Mit einem vergößerten Angebot an 
Speicher geht die Informationsex- 
plosion einher: 1986 wurden nur 
2,6 Exabytes digital abgespeichert, 
zur Jahrtausendwende waren es 
54,5 Exabytes und 2016 bereits 16,1 
Zetabytes (Giga-, Peta-, Exa-, Zeta-). 
Die IDC (International Data Corpo- 
ration) und der Speicherhersteller 
Seagate gehen 2020 sogar von 163 
Zetabytes digitaler Informationen 
aus, von denen gerademal 5,2 Zeta- 
bytes durch künstliche Intelligenz 
analysiert werden - verglichen mit 
heute ist das ein Zuwachs um den 
Faktor 50. 


CPU- und GPU- 
Performance 

Deep Learning startet aber nicht 
nur wegen der Big-Data-Datensätze 
gerade richtig durch, sondern weil 
Prozessoren und GPUs mittlerwei- 


le einen Level an Performance er- 


Software 


Überblick: Deep Learning 
als Teil der KlI-Forschung 


Das Forschungsgebiet der künstlichen Intelligenz besteht aus vielen 
Teildisziplinen. Eine davon ist das Maschinelle Lernen, das wiederum 
Deep Learning als Untermenge enthält. Andere KI-Disziplinen sind bei- 
spielsweise die Robotik. 


KÜNSTLICHE 
INTELLIGENZ 


Oberbegriff und Forschungsdisziplin für 
intelligentes Verhalten von Maschinen 


MASCHINELLES 
LERNEN 


Ein Algorithmus, der über die Zeit besser 
wird, je mehr Daten er analysiert 


Rückblick: 75 Jahre 
Kl-Forschung 


Angefangen hat die For- 

schung an Künstlicher KA 

Intelligenz bereits in den OR 
1940er-Jahren mit der Mc- 

Culloch-Pitts-Zelle, dem 

einfachsten Neuronenmo- 

dell überhaupt, welches X2 

auch heute noch als sehr 

effiziente elektrische Schal- 

tung Verwendung findet. Eine der Varianten zeigt die Abbildung oben. 


Wenig später, in den 1950er-Jahren, zeigte Frank Rosenblatt mit dem 
Konvergenztheorem über das Perzeptron (vom englischen Perception 
= Wahrnehmung), dass das künstliche Neuron alles erlernen konnte, 
was es auch abbilden kann, und legte damit den Grundstein für künst- 
liche neuronale Netze. 


Es blieb Jahrzehnte ziemlich ruhig um KNNs, bis es Geoffrey Hinton 
2006 erstmals gelang, ein mehrschichtiges neuronales Netz zu trai- 
nieren - seitdem ist das Gebiet wieder in den Fokus der Forschung 
gerückt. Diese und weitere „Ruhephasen“ werden bisweilen auch als 
„KlI-Winter“ bezeichnet; in diesen Zeiten gab es teils aufgrund techni- 
scher, teils aber auch gesellschaftlicher oder politischer Einschränkun- 
gen praktisch keine Fortschritte in der KI-Forschung. 
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Bild: Wikipedia/Adrian Lange, Lizenz: CC BY-SA 3.0 
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Überblick: Die Ebenen 
eines neuronalen Netzes 


Neuronale Netze sind aus drei Ebenen aufgebaut: Input-, Hidden- und 
Output-Layer. Bei künstlichen Neuronen handelt es sich um mathema- 
tische Funktionen, die auf Grund eines Inputs einen Wert errechnen. 
Mehrere dieser Werte können, analog zur Biologie, einen Schwellen- 
wert in höheren Schichten erreichen und das Neuron dort aktivieren, 
das dann zum Beispiel für die Identifikation von Personen nötig ist 
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Schwellenwert 


Gewichtungen 


GPUs als Kl-Treiber 


Grafikkarten eignen sich aufgrund ihrer massiv parallelen Architektur 
sowie der stetig steigenden Rechenleistung besonders gut für den 
Einsatz in neuronalen Netzen. Die GPU-Nutzung beim ImageNet-Wett- 
bewerb illustriert die folgende Statistik: 
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reicht haben, der die Verarbeitung 
gigantischer Datenmengen über- 
haupt erst erlaubt - vorher war die 
technische Verarbeitung einfach 


nicht machbar. 


Wie lernen Computer? 

Wir wissen nun, warum gerade jetzt 
Deep Learning so populär gewor- 
den ist und sich zunehmend als Syn- 
onym für maschinelles Lernen und 
künstliche Intelligenz etabliert hat. 
Noch ist aber unklar, wie genau ein 
DL-Algorithmus Entscheidungen 
fällt; beispielsweise wenn Gesich- 
ter, Sprache oder handschriftlicher 


Text erkannt werden soll. 


Das ist umso wichtiger, da Compu- 
ter in naher Zukunft eigenständig 
und vor allem intelligent handeln 
können sollen: Ein autonom fahren- 
des Fahrzeug muss im Straßenver- 
kehr die korrekten Entscheidungen 
treffen, sonst gefährdet es womög- 
lich andere Verkehrsteilnehmer. 
Dafür müssen Maschinen lernen, 
sensorische Rohdaten auf ähnliche 
Weise aufzubereiten wie Menschen, 
um Assoziationen knüpfen zu kön- 
nen. Wie soll man aber solch eine 
Aufgabe bewältigen, wenn die Roh- 
daten letztlich nur aus Bildpunkten 
mit unterschiedlichen Farbwerten 


bestehen? 


Lernbibliotheken 

Unabdingbar für den Lernerfolg ist 
eine gigantische Menge Rohdaten, 
die als Lernbibliothek fungiert. Die- 
ses Sammelsurium an Beispielen 
alleine befähigt den Computer aber 
noch nicht, korrekte Aussagen über 
ähnliche Sachverhalte zu erstellen. 
Zunächst müssen Assoziationen 
zwischen Mustern und Gesetzmä- 
Bigkeiten innerhalb der Datensätze 


erzeugt werden. 


Die praktische Umsetzung erfolgt 
durch Algorithmen, die entweder 
mit Lehrern (überwachtes Lernen) 


oder ohne (unüberwachtes Lernen) 


alle Beispiel-Datensätze durchgehen. 
Bei der ersten der beiden Möglich- 
keiten bekommt das Programm 
stets die korrekten Antworten der 
Fragestellung mitgeliefert, sodass 
der Computer leichter Zusammen- 
hänge zwischen Ein- und Ausgabe 
bilden kann. Das überwachte Ler- 
nen hat zudem noch weitere Unter- 
kategorien, bei denen Lernerfolge 
zum Beispiel belohnt und Fehltrit- 
te bestraft werden („bestärkendes 
Lernen“ kommt am häufigsten beim 


Mensch vor). 


Beim unüberwachten Lernen ist 
das System dagegen vollkommen 
auf sich selbst gestellt und muss 
Strukturen und Muster im Input 
selbst erkennen. Das kann beispiels- 
weise durch Anhäufung von ähnli- 
chen Merkmalen passieren (Clus- 
ter-Analyse). Als Zwischenform gibt 
es noch das teilüberwachte Lernen, 
bei dem lediglich ein gewisser Pro- 
zentsatz der Antworten zu den Ein- 


gaben präsentiert wird. 


Wissen aus Daten 

Diese Methoden erlauben es, Com- 
puterprogrammen Wissen aus Da- 
tensätzen anzutrainieren. Warum 
glaubt aber ein Algorithmus, auf 
die korrekte Anwort gekommen zu 
sein? Wie stellt die Maschine kon- 
kret Assoziationen zwischen Ein- 


und Ausgabe her? 


Wie die Entscheidungfindung ge- 
nau abläuft, ist nicht sicher, da es 
sich bei DL-Algorithmen um sub- 
symbolische Systeme handelt. Das 
bedeutet, es kommt zu einer unbe- 
wussten Informationsverarbeitung 
- ähnlich wie beim Denken, da alle 
psychischen Prozesse in ihrem We- 


sen unbewusst sind. 


Beim klassischen maschinellen Ler- 
nen werden dagegen Beispiele und 
induzierte Regeln explizit repräsen- 
tiert, sodass Lösungswege einseh- 


bar sind. 


Entscheidungs- 
findungen 

Damit Computer die Welt ähnlich 
wie wir erfassen können, haben Wis- 
senschaftler die neuronalen Struk- 
turen des menschlichen Gehirns, 
genauer die des visuellen Cortex, für 


eine Maschine nachgebildet. 


Bei diesen künstlichen neuronalen 
Netzen handelt es sich aber nicht 
um physisch existierende Struktu- 
ren, sondern nur um Code, der ma- 
thematische Gleichungen ausführt. 
Meist wird ein Eingabewert in ei- 
nen Ausgabewert gewandelt und 
ihm wird dabei eine entsprechende 


Gewichtung zugeteilt. 


KNN-Aufbau 

Künstliche neuronale Netze (KNN) 
bestehen aus drei abgegrenzten 
Ebenen: Input-, Hidden- und Out- 
put-Layer. Die Eingabeebene regis- 
triert zunächst die sensorischen 
Rohdaten, transformiert diese In- 
formation und gibt sie gewichtet an 
die zweite Ebene, den Hidden-Lay- 
er, weiter. Solch eine Gewichtung 
im Input-Layer kann beispielsweise 
einen Farbwert eines Pixels wider- 
spiegeln, aber auch das Fehlen von 


Farbe in einem ganzen Bildbereich. 


In der versteckten Ebene passiert 
dann die „Magie“ eines Deep-Le- 
findet 


der eigentliche „Denkprozess“ des 


arning-Algorithmus: Hier 
Computers statt. Von Schicht zu 
Schicht nimmt die Komplexität 
und der Detailgrad zu, was erlernt 
wird. Sind es anfangs noch unter- 
schiedliche Schwarzwerte, werden 
daraus später Merkmale wie etwa 
ein Nasenhöcker oder ein Auge und 
schließlich komplexe Strukturen 


wie ganze Gesichter. 


Bei unüberwachtem Lernen sucht 
sich der Code eigens die Merkmale 
in den Bildern aus, bei überwach- 
tem Lernen werden die Gewich- 


tungen innerhalb der Ebenen und 


Software 


Wie Deep-Learning-Algorithmen Inhalte 


erkennen 


Mensch, Auto oder doch Hund? Wie bildet ein Computer Assoziationen und lernt, zwischen Mensch, Tier und 


Objekt zu differenzieren? 


SCH 
80 % Mensch 


Schichten an die durch den „Leh- 
rer” mitgelieferten Ergebnisse ange- 
passt, bis das Resultat den Ausgaben 
aus dem Lernprozess entspricht. 
Die einzelnen Schichten und Ebe- 
nen sind untereinander verbunden, 
sodass der Output der n-ten ver- 
steckten Schicht der Input des n+1- 


ten nächsten Hidden-Layers ist. 


Convolutional Neural 
Networks (CNN) 

Eine sehr populäre Herangehens- 
weise für die Bild- und Videoerken- 
nung sind Convolutional Neural 
Networks (CNN, CovNet, faltende 


neuronale Netze), die ebenfalls 


D 


leid Tei BLS 
Spa E 


Übung macht den Meister 

Während der Lernphase werden dem Netzwerk riesige Daten- 
sätze mit gelabelten Bildern serviert. Der Algorithmus lernt da- 
durch, auf bestimmte Merkmale zu achten und Assoziationen 
zu bilden. 


Der Input 


Dem Netzwerk wird ein unbekanntes und ungelabeltes Bild 
gegeben, das eingeordnet werden soll. 


Die Hidden-Layer 


In der ersten Schicht des neuronalen Netzes werden zunächst 
nur simple Strukturen wie Kanten oder Ecken erkannt. Im 
zweiten Layer wird es dagegen schon etwas konkreter: Die 
Orientierung der Ecken und Kanten kommt hinzu. In der dritten 
Schicht kann das Programm dank der vorhergehenden Layer 
bereits Gesichtsakren ausmachen. Etliche weitere Hidden-Lay- 
er später sieht der Computer im Input-Bild ein menschliches 
Gesicht (Lee et al. 2011; doi :10.1145/2001269.2001295 ) 


20 % Tier 


Präsentation 


widerspiegelt. 


aus Input-, Hidden- und Output-Lay- 
er aufgebaut sind. Der Hidden- 
Layer wird hier aber zusätzlich 
noch in eine Merkmalerkennungs- 
und eine Klassifizierungsschicht 


unterteilt. 


Vereinfacht gesagt geht es darum, 
einzelne Merkmale der Input-Daten 
zu „schärfen“. Statt alle Neuronen 
mit allen zu vernetzen, werden ge- 
wissermaßen lokale Untergruppen 
gebildet. Dies ist vor allem bei der 
Erkennung von Bildern und Spra- 
che sinnvoll und entspricht im 
Wesentlichen den Vorgängen im 


biologischen Vorbild - auch die 


Am Schluss gibt der Computer eine Wahrscheinlichkeitsver- 
teilung aus, in der sich die Annahme durch den Algorithmus 


Zellen der Sehrinde sind verstärkt 
mit ihren Nachbarn vernetzt. Hinzu 
kommen noch weitere biologische 
Merkmale, etwa das „Feuern“ eines 
Neurons, wenn eine bestimmte 


Reizschwelle erreicht ist. 


Weitere Entwicklung 
Solange die technische Weiter- 
entwicklung anhält, werden auch 
neuronale Netze zunehmend leis- 
tungsfähiger. Wann eine annähernd 
menschliche Intuition erreicht sein 
wird, darüber sind Wissenschaftler 
uneins. Von einigen Jahren bis zu 
mehreren Jahrzehnten reichen die 


Prognosen. 
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Bild: pixabay.com 
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So funktioniert Software: 
Kryptowährungen 
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Der Bitcoin-Kurs stieg Ende 2017 wie eine Rakete - stürzte aber auch sch- 


nell wieder ab. Aktuell steht der Kurs bei annähernd 8.700 US-Dollar und 


nimmt Anlauf für das nächste Hoch (alle Werte in US-Dollar) 
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ls erste Kryptowährung über- 
A. hat der Bitcoin im Jahr 
2017 die Neunzehntausend-Dol- 
lar-Marke durchbrochen - auch 
wenn der Kurs danach deutlich 
einbrach, stieg und steigt er doch 
in der Folge weiter und ist auf dem 


Weg zum nächsten Allzeit-Hoch. 


Was steckt hinter dem Boom? 


Kryptowährungen 

Viele Leute nutzen mittlerweile 
Kryptowährungen als Geldanlage 
oder Zahlungsmittel und können 
damit sogar schon bei einem On- 
line-Pizza-Portal ihr Essen bezah- 
len. Aber was steckt genau hinter 
Bitcoin, Etherum, Litecoin und wie 
sie alle heißen? Was ist die Block- 
chain und warum ist sie so sicher? 
Wir wollen zum Abschluss dieses 
Bookazines einen kleinen Einblick 
in die Welt der kryptografischen 
Währungen geben und Begriffe 
erklären, damit Sie vielleicht in Zu- 
kunft selbst Teil dieser finanziellen 


Revolution werden können. 


Block für Block 
Sicherheit? 

Die technische Basis jeder Kryp- 
towährung bildet die sogenannte 
Blockchain. Diese Kette kann kon- 
tinuierlich um einzelne Blöcke, die 
jeweils einen definierten Datensatz 
enthalten, erweitert werden. Man 
kann also auch von einer Daten- 
bank sprechen, einem Kassenbuch 
oder einfach einer Liste, die Trans- 
aktionen dokumentiert. Jeder neu 
erstellte Block wird durch ein kryp- 
tografisches Verfahren mit dem vo- 
rangegangenen verkettet, um dann 
unwiderruflich in die Datenbank 


eingetragen zu werden. Im Gegen- 


satz zu normalen Kassenbüchern 
bei beispielsweise einer Bank ist die 
Blockchain dezentral organisiert 
und kann von jedem überall einge- 
sehen und nachvollzogen werden. 
Was aber noch viel wichtiger ist: 
Keine für gültig befundene Transak- 


tion kann wieder gelöscht werden. 


Blockchain 

Fassen wir also noch einmal zusam- 
men: Eine Blockchain stellt eine de- 
zentrale Datenbank dar, die Trans- 
aktionen verwaltet, ohne dabei auf 
eine zentrale Kontrollinstanz zu ve- 
trauen, und das bei vollkommener 
Transparenz der Eintragungen für 


jeden Nutzer der Blockchain. 


Kommt es nun zu einer Transakti- 
on, wird ein neuer Block in der Ket- 
te erzeugt, oder um bei der Analo- 
gie mit dem Kassenbuch zu bleiben, 
wird ein neuer Eintrag hinzugefügt. 
Dieser neu erstellte Block besitzt 
alle nötigen Informationen bezüg- 
lich der neuen Transaktion, aber 
auch der gesamten bis dato existie- 
renden Blockchain und damit aller 
bisher getätigten Überweisungen 
der Kryptowährung. Nur wenn alle 
Informationen im neu erstellten 
Eintrag mit den bisherigen Notizen 
im Kassenbuch übereinstimmen, ist 


die Transaktion gültig. 


Dezentrale Kontrolle 

Bei der Blockchain kommt anders 
als in einer Bank eine dezentrale 
Kontrollinstanz zum Tragen: Es gibt 
unzählige Kopien der Datenbank, 
die alle für jede Transaktion einen 
Prüfprozess durchlaufen müssen. 
Dafür werden die bisherigen Da- 
tensätze mit dem neuen Eintrag ab- 
geglichen und nur bei haargenauer 
Übereinstimmung wird die Trans- 
aktion für gültig erklärt. Stellen Sie 
sich das ungefähr so vor: Person 
A möchte Person B Geld senden, 
kennt Person B aber nicht persön- 
lich und hat deshalb - natürlicher- 


weise - wenig bis kein Vertrauen 


in die fremde Person. Bei der Über- 
gabe ist nun eine große Gruppe an- 
wesend, die die Transaktion beob- 
achtet. Diese Gruppe bestätigt die 
Übergabe des Geldes von Person 
A zu Person B und kennt zusätzlich 
noch den korrekten Betrag, der 
überwiesen wurde. Die Identitäten 
der beteiligten Personen sind der 


Gruppe aber nicht bekannt. 


Ein Resultat der Blockchain ist, dass 
man dadurch auf Mittelsmänner 
verzichten kann und damit Banken 
oder andere finanzielle Institutio- 
nen überflüssig gemacht werden. 
Kein Nutzer besitzt das Kassenbuch 
und jeder Eintrag ist irreversibel 
eingetragen, kann also nicht mehr 
getilgt werden. Aus diesem Grund 
ist die Blockchain auch eines der si- 
chersten bisher bekannten Systeme 
überhaupt, denn eine Manipulation 
ist aufgrund des Designs nur sehr 
schwer möglich. Selbst wenn man 
mehrere Kopien der Datenbank be- 
sitzt, sie manipuliert und versucht, 
in das System einzustreuen, werden 
die Millionen Rechner die Legimität 
des veränderten Kassenbuches an- 
zweifeln; erst mit mehr als 50 Pro- 
zent der Miner kann eine Fälschung 


gelingen („51-Prozent-Attacke‘“). 


Wo kommt 

das Geld her? 

Viele fragen sich jetzt sicherlich: 
Wo kommen eigentlich die ganzen 
Coins her und wo ist der Gegen- 


wert zu diesen digitalen Münzen? 


Kryptowährungen werden einfach 
erzeugt, wobei „einfach“ Interpreta- 
tionssache ist. Denn je mehr Leute 
ihre Rechenleistung für das Lösen 
der kryptografischen Hash-Funkti- 
on einsetzen, desto schwerer wird 
es gemacht, einen Bitcoin zu erzeu- 
gen. Diese Funktion ist aber zwin- 
gend notwendig, um einen neuen 
Block mit Transaktionsdaten in das 
Kassenbuch der Blockchain sicher 


eintragen zu können. 


Als Belohnung für eine korrekt ge- 
löste Hash-Funktion bekommen 
die Teilnehmer Bitcoins ausgezahlt, 
die „erstellt“ wurden. Man spricht 
hier vom sogenannten Mining oder 
Schürfen. Durch das künstliche 
Anheben des Schweregrades soll 
sichergestellt werden, dass keine 
einzelne Person willkürliche Ände- 


rungen vornehmen kann. 


Der Aufwand ist enorm: Zeitweise 
vebrauchte das Bitcoin-Schürfen 
ganze 0,13 Prozent des weltweit 
verfügbaren Stroms und lag damit 
global gesehen vor 159 Ländern. 
Dieses energiehungrige Verfahren 
nennt man auch „Proof of Work“ 
(PoW) und es sichert über die kryp- 
tografischen Funktion die Transak- 
tionsdaten in der Blockchain ab. 
Der Realwert eines Bitcoins ent- 
steht erst aus der Bereitsschaft der 
Nutzer, für das Wertetransfersystem 
einer Blockchain von einem Staat 


emittiertes Geld, dafür auszugeben. 


Ökologische 
Alternativen? 

Neben dem Proof-of-Work-Mecha- 
nimus, der der Kryptowährung 
Bitcoin zugrunde liegt, gibt es noch 
weitere Verifizierungsmethoden in- 


nerhalb der Blockchain. 


Beim Proof-of-Stake-Mechanismus 
wird die Stimmgewalt eines Miners 
von dessen Rechenleistung entkop- 
pelt und stattdessen die im Besitz 
befindlichen Coins herangezogen. 
Dadurch entfällt der energiefres- 
sende Prozess, per mathematischer 
und kryptografischer Hash-Funktio- 
nen einen Block zu generieren. Der 
Proof of Stake funktioniert also so: 
Je größer der Coin-Anteil am gesam- 
ten Kryptogeldnetzwerk ist, desto 
mehr Datensätze kann dieser Miner 
verifizieren. Die geschürften Mün- 
zen, die dann bei der Verifizierung 
eines Blocks ausgegeben werden, 
sowie die Transaktionsgebühren, 


die eine (Distributed)-Denial-of-Ser- 


Software 


Wie eine Blockchain 
funktioniert 


Dezentral, ohne teure Mittelsmänner, demokratisch, fair und auch noch 


sicher? Hört sich einfach zu gut an. Wie kann das bloß funktionieren? 


Eine Transaktion wird 
durchgeführt, indem ein 
Wert von Person A auf 
Person B übertragen 
wird, die aber noch 
vom Netzwerk bestätigt 
werden muss. 


o Dann wird diese 
Transaktion im Peer- 
(N to-Peer-Netzwerk der 
Blockchain gepostet, 

(J 
NY >; um dann von anderen 
Jg D Minern bestätigt zu 
N] werden, um Gültigkeit 
o zu erlangen. 


Alle zehn Minuten wird 
ein neuer Block erstellt, & 
der alle Transaktionen 
und Informationen 

enthält - auch unsere. 


sche Hashfunktion gelöst, die 
den Regeln der Währung ent- 
sprechen. Hier konkurrieren 
die Miner untereinander, denn 
wer als erstes die Funktion 
löst, wird mit Coins belohnt. 


Sobald die Funktion gelöst wur- 
de, muss sie von anderen Minern 
bestätigt werden, da bisher nur 
der Ersteller sie verifiziert hat. 
Dazu wird die Information über 
den gelösten Block wieder im 
P2P-Netzwerk gepostet. 


Ex Ev 


Nur wenn der Block regelkonform gelöst wurde und bestimmte Daten 
enthält, wird er im Netzwerk als valide akzeptiert. 


Ein valider Block wird schnel- 
ler von anderen Minern 
verifiziert als ein manipulier- 
ter Block. Aus diesem Grund 
wächst die Blockchain mit 
korrekten Blöcken schneller 
als mit manipulierten. So ist 
die Blockchain sicher. 


Nun wird eine kryptographi- 
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Software 


Kurzes Bitcoin-Glossar 


Rund um den Bitcoin werden Interessierte mit viel Fachchinesisch kon- 
frontiert. Die wichtigsten Begriffe im Überblick: 


Altcoin 
Von „Alternative Coin“, bezeichnet alle anderen Kryptowährungen ne- 
ben Bitcoin, wie beispielsweise Ether, Litecoin oder Monero. 


ASIC und ASIC Miner 

Das Kürzel steht für „Application Specific Integrated Circuit“ und be- 
schreibt einen Chip, der nur für eine bestimmte Aufgabe entworfen 

und produziert wurde. Ein ASIC Miner für Bitcoins enthält zum Beispiel 
Chips, die für das Lösen der SHA-256 Hash-Funktion optimiert wurden. 


Dezentral autonom handelnde Organisation (DAO) 

Eine DAO ist ein Unternehmen, das auf der Blockchain und Smart 
Contracts basiert und keine menschliche Interaktion mehr benötigt, um 
geschäftsfähig zu sein. Kontrolliert wird eine DAO durch Algorithmen. 


Fork 

Englisch für „Gabel“; bezeichnet die Abspaltung der Blockchain einer 
Kryptowährung in einem seperaten Entwicklungszweig. Kommt es zu 
einem Fork, sind nachkommende Datensätze mit den alten nicht mehr 
kompatibel. Bei Etherum kam es bereits zu einem Fork, als Coins im 
Wert von 50 Millionen Dollar gestohlen wurden. 


Initial Coin Offering (ICO) 

Hierbei handelt es sich um eine unregulierte Crowdfundingaktion für 
Unternehmen, deren Geschäftsmodell auf der Blockchain basiert. 
Coins fungieren hier wie Aktien, die beim „Börsengang“ (Offering) ver- 
kauft werden und so Kapital erzeugen. 


Ledger 

Engl. für Kassenbuch; beschreibt im Endeffekt nichts anderes als die 
unwiderruflich eingetragenen Datensätze (Transaktionen) in der Block- 
chain. 


Private Key (privater Schlüssel) 

Nur mit dem privaten Schlüssel kann ein Nutzer auf ein Wallet (Bank- 
konto in der Blockchain) zugreifen und Transaktionen in der Blockchain 
durchführen. Vorstellen kann man sich das wie eine geheime PIN. 


Satoshi 

Ein Satoshi ist die kleinste Untereinheit eines Bitcoin (ein millionstel 
Teil). Satoshi Nakamoto hatte 2008 in einem White Paper das Prinzip 
einer Kryptowährung vorgestellt und gilt deshalb als Erfinder des Bit- 
coin. Welche Person oder Personengruppe sich hinter dem Pseudo- 
nym verbirgt, ist unbekannt. 


SHA-256 

Hierbei handelt es sich um die verwendete kryptografische Hash-Funk- 
tion in der Bitcoin-Blockchain. Das Kürzel steht für „Secure Hash Algo- 
rithm 256“; die Zahl repräsentiert die Länge des Hash-Wertes in Bit. 


Smart Contract 

Smart Contracts sind Computerprotokolle, die Verträge darstellen oder 
überprüfen und auch die Vertragsverhandlungen oder -abwicklung 
technisch unterstützen. In der digitalen Rechteverwaltung (DRM) könn- 
ten diese Veträge die Lizenzen abbilden und durchsetzen. Bei Etherum 
werden mit solchen Verträgen ganze Unternehmen konstruiert, wie 
etwa die DAO (siehe weiter links). 
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vice-Attacke (DDoS) verhindern 
sollen, werden dann zufällig und 
periodisch über die Coin-Besitzer 
ausgeschüttet. Dabei ist entschei- 
dend, wie viel ein Miner besitzt und 
wie lange er über diesen Besitz ver- 


fügen konnte. 


Alternativ gibt es noch mehr Mecha- 
nismen, die ähnlich zum Proof of 
Stake die Energiekosten der Miner 
auf ein Minimum reduzieren sollen. 
Zu nennen wären hier neben dem 
Proof of Burn (PoB) noch der Proof 
of Capacity (PoC; auch Proof of Spa- 
ce). Die Verifizierung weiterer Blö- 
cke innerhalb der Blockchain wird 
beim PoB erreicht, indem Coins der 
Kryptowährung zerstört werden 
und dadurch dem Miner ein Wert 
gegeben wird, der ähnlich dem 
Hash-Wert beim PoW ist. Beim PoC 
wird dagegen auf Speicherkapazität 
gesetzt anstatt auf Rechenleistung 


wie beim Proof of Work. 


Die Zukunft 

des Geldes? 

Was kann man nun mit Kryptowäh- 
rungen und der Blockchain alles 
anfangen? Anhand der Blockchain 
lässt sich wie erwähnt genau klären, 
wie die Besitzverhältnisse digitaler 
Produkte sind. Ein Beispiel: Bis jetzt 
kann man eine MP3 beliebig oft 
kopieren, ohne dass man einen Un- 
terschied zum Original ausmachen 
kann. Dank der Blockchain ist nun 
direkt erkennbar, welche MP3 das 
Original ist und welche nur eine 
Kopie, da in den Blöcken die Infor- 
mation zugrunde liegt. Man spricht 
hier vom Internet der Werte (Inter- 
net of Value), da jedem digitalen 
Produkt nun ein Wert zugeordnet 


werden kann. 


Die Möglichkeiten der Blockchain 
sind also vielfältig, angefangen 
beim sicheren, schnellen und güns- 
tigem Transfer von Finanzen durch 
Kryptowährungen wie Bitcoin oder 


Etherum. Durch das manipulati- 


onssichere Design der Blockchain 
kann diese Technologie aber auch 
in einer Wahl Anwendung fin- 
den. Unregelmäßigkeiten bei der 
Stimmauszahl würden damit der 
Vergangenheit angehören, da ei- 
nerseits viele Computer über eine 
hinterlegte Kopie der Blockchain 
(und damit der abgegebenen Stim- 
men) verfügen und so jeder Gang 
zur Wahlurne zunächst verifiziert 
werden muss. Zudem kann jeder öf- 
fentlich einsehen, wie und für wen 
gewählt wurde, ohne dass dabei die 
Identität der Wähler zur Diskussion 


stehen würde. 


Neue Möglichkeiten 

Natürlich können auch weitere 
Wertgegenstände mit der Block- 
chain kombiniert werden, bei- 
spielsweise mit Musik. Statt einem 
Service einen monatlichen Beitrag 
zu zahlen, der auf die Künstler 
aufgeteilt wird, könnte man Con- 
tent-Schaffende so viel fairer und 


direkter entlohnen. 


Die Blockchain könnte auch unser 
Energienetz umkrempeln. Im Mo- 
ment wird Strom noch zentral er- 
zeugt und verteilt und man merkt 
bereits, dass aufgrund erneuerbarer 
Energien eine dezentrale Gewin- 
nung und Verteilung unumgäng- 
lich ist. Mittels Blockchain könnten 
private Haushalte den erzeugten 
Strom direkt und automatisch in 
der Nachbarschaft verkaufen oder 
bei eigenem Bedarf im näheren 
Umfeld einkaufen. Alles wäre mani- 
pulationssicher in den Datensätzen 
hinterlegt. In Australien und New 


York laufen bereits erste Versuche. 


Die Technologie der Blockchain ist 
innovativ und kann auch in anderen 
Aspekten unseres Lebens Einzug 
finden. Dann würden wir nicht nur 
unabhängiger von großen Instituti- 
onen und Firmen, sondern könnten 
Werte auch fairer und direkter ent- 


lohnen. 
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